Convertisseur spécialisé · fonctionne à 100 % dans votre navigateur
OCR PDF vers TXT
Extrayez le texte d'un PDF numérisé ou basé sur une image à l'aide de l'OCR (Tesseract.js + pdf.js). Chaque page est rendue sur un canevas et OCR. Fonctionne pour les documents dont le texte n'est pas sélectionnable. La progression sur plusieurs pages est affichée au fur et à mesure de l'exécution de la conversion.
Comment utiliser
- Déposez votre fichier PDF.
- Choisissez la langue du document dans la liste déroulante.
- Tesseract.js charge les données de langue (~ 10 Mo par langue, mises en cache après la première utilisation).
- OCR s'exécute localement et la sortie TXT est proposée au téléchargement.
FAQ
Quelle est la précision de l'OCR ?
Tesseract est l'un des meilleurs moteurs OCR open source. Pour un texte clair et moderne, la précision est généralement de 95 à 99 %. L'écriture manuscrite, les numérisations à faible contraste ou les polices inhabituelles peuvent réduire considérablement la précision.
Pourquoi la première conversion prend-elle un certain temps ?
La première exécution télécharge environ 10 à 15 Mo de données linguistiques. Après cela, il est mis en cache pour le reste de votre session.
Mon document ou mon image est-il téléchargé sur un serveur ?
Non. La conversion s'exécute entièrement dans votre navigateur à l'aide de WebAssembly et des API Web. Ouvrez l'onglet Réseau dans DevTools pendant la conversion : vous ne verrez aucun trafic sortant transportant votre fichier.
Est-ce vraiment gratuit ?
Oui. Pas d'inscription, pas de quota, pas de niveau de mise à niveau. La conversion s'exécute sur votre machine, son hébergement ne nous coûte donc rien.