Convertisseur spécialisé · fonctionne à 100 % dans votre navigateur

OCR PDF vers TXT

Extrayez le texte d'un PDF numérisé ou basé sur une image à l'aide de l'OCR (Tesseract.js + pdf.js). Chaque page est rendue sur un canevas et OCR. Fonctionne pour les documents dont le texte n'est pas sélectionnable. La progression sur plusieurs pages est affichée au fur et à mesure de l'exécution de la conversion.

Aucun téléchargementAucune inscriptionPas de suiviGratuit, illimité
Déposez votre fichier PDF ici
ou cliquez pour choisir un fichier

Comment utiliser

  1. Déposez votre fichier PDF.
  2. Choisissez la langue du document dans la liste déroulante.
  3. Tesseract.js charge les données de langue (~ 10 Mo par langue, mises en cache après la première utilisation).
  4. OCR s'exécute localement et la sortie TXT est proposée au téléchargement.

FAQ

Quelle est la précision de l'OCR ?

Tesseract est l'un des meilleurs moteurs OCR open source. Pour un texte clair et moderne, la précision est généralement de 95 à 99 %. L'écriture manuscrite, les numérisations à faible contraste ou les polices inhabituelles peuvent réduire considérablement la précision.

Pourquoi la première conversion prend-elle un certain temps ?

La première exécution télécharge environ 10 à 15 Mo de données linguistiques. Après cela, il est mis en cache pour le reste de votre session.

Mon document ou mon image est-il téléchargé sur un serveur ?

Non. La conversion s'exécute entièrement dans votre navigateur à l'aide de WebAssembly et des API Web. Ouvrez l'onglet Réseau dans DevTools pendant la conversion : vous ne verrez aucun trafic sortant transportant votre fichier.

Est-ce vraiment gratuit ?

Oui. Pas d'inscription, pas de quota, pas de niveau de mise à niveau. La conversion s'exécute sur votre machine, son hébergement ne nous coûte donc rien.