Špecializovaný prevodník · beží 100% vo vašom prehliadači
PDF do TXT OCR
Extrahujte text z naskenovaného alebo obrázkového PDF pomocou OCR (Tesseract.js + pdf.js). Každá stránka je vykreslená na plátno a OCR. Funguje pre dokumenty, kde nie je možné vybrať text. Počas konverzie sa zobrazuje postup na viacerých stranách.
Ako používať
- Zložte súbor PDF.
- Vyberte jazyk dokumentu z rozbaľovacej ponuky.
- Tesseract.js načítava jazykové údaje (~10 MB na jazyk, uložené vo vyrovnávacej pamäti po prvom použití).
- OCR beží lokálne a výstup TXT sa ponúka na stiahnutie.
často kladené otázky
Ako presné je OCR?
Tesseract je jedným z najlepších OCR motorov s otvoreným zdrojom. Pre čistý a moderný text je to zvyčajne 95 – 99 % presnosť. Ručné písanie, skenovanie s nízkym kontrastom alebo nezvyčajné písma môžu výrazne znížiť presnosť.
Prečo prvá konverzia chvíľu trvá?
Prvé spustenie stiahne ~10-15 MB jazykových údajov. Potom sa uloží do vyrovnávacej pamäte pre zvyšok vašej relácie.
Odovzdáva sa môj dokument alebo obrázok na server?
Nie. Konverzia prebieha výlučne vo vašom prehliadači pomocou WebAssembly a Web API. Počas konverzie otvorte kartu Sieť v nástroji DevTools – neuvidíte žiadnu odchádzajúce prenosy prenášané vaším súborom.
Je to naozaj zadarmo?
Áno. Žiadna registrácia, žiadna kvóta, žiadna úroveň inovácie. Konverzia beží na vašom počítači, takže hosťovanie nás nič nestojí.