Spezialisierter Konverter · läuft zu 100 % in Ihrem Browser
PDF zu TXT OCR
Extrahieren Sie Text aus einem gescannten oder bildbasierten PDF mithilfe von OCR (Tesseract.js + pdf.js). Jede Seite wird auf einer Leinwand gerendert und mit OCR bearbeitet. Funktioniert für Dokumente, bei denen der Text nicht auswählbar ist. Während der Konvertierung wird der mehrseitige Fortschritt angezeigt.
Verwendung
- Legen Sie Ihre PDF-Datei ab.
- Wählen Sie die Sprache des Dokuments aus der Dropdown-Liste aus.
- Tesseract.js lädt die Sprachdaten (~10 MB pro Sprache, zwischengespeichert nach der ersten Verwendung).
- OCR läuft lokal und die TXT-Ausgabe wird zum Download angeboten.
FAQ
Wie genau ist die OCR?
Tesseract ist eine der besten Open-Source-OCR-Engines. Bei sauberem, modernem Text liegt die Genauigkeit normalerweise bei 95–99 %. Handschriften, kontrastarme Scans oder ungewöhnliche Schriftarten können die Genauigkeit erheblich beeinträchtigen.
Warum dauert die erste Konvertierung eine Weile?
Beim ersten Durchlauf werden ca. 10–15 MB Sprachdaten heruntergeladen. Danach wird es für den Rest Ihrer Sitzung zwischengespeichert.
Wird mein Dokument oder Bild auf einen Server hochgeladen?
Nein. Die Konvertierung erfolgt vollständig in Ihrem Browser mithilfe von WebAssembly und Web-APIs. Öffnen Sie während der Konvertierung die Registerkarte „Netzwerk“ in DevTools – Sie werden keinen ausgehenden Datenverkehr sehen, der Ihre Datei überträgt.
Ist das wirklich kostenlos?
Ja. Keine Anmeldung, kein Kontingent, keine Upgrade-Stufe. Die Konvertierung läuft auf Ihrem Rechner, das Hosten kostet uns also nichts.