Speciális konverter · 100%-ban fut a böngészőjében
PDF to TXT OCR
Szöveg kibontása beolvasott vagy képalapú PDF-ből az OCR (Tesseract.js + pdf.js) segítségével. Minden oldal egy vászonra kerül, és OCR-re kerül. Olyan dokumentumokhoz használható, ahol a szöveg nem választható ki. A többoldalas előrehaladás a konverzió lefutása közben látható.
Hogyan kell használni
- Dobja el a PDF-fájlt.
- Válassza ki a dokumentum nyelvét a legördülő menüből.
- A Tesseract.js betölti a nyelvi adatokat (nyelvenként kb. 10 MB, az első használat után gyorsítótárban).
- Az OCR helyileg fut, és a TXT kimenet letölthető.
GYIK
Mennyire pontos az OCR?
A Tesseract az egyik legjobb nyílt forráskódú OCR motor. Tiszta, modern szöveg esetén általában 95-99%-os pontosságú. A kézírás, az alacsony kontrasztú szkennelés vagy a szokatlan betűtípusok jelentősen csökkenthetik a pontosságot.
Miért tart sokáig az első konverzió?
Az első futtatás ~10-15 MB nyelvi adatot tölt le. Ezt követően a munkamenet hátralévő részében gyorsítótárban lesz.
Feltöltődik a dokumentumom vagy a képem a szerverre?
Nem. A konvertálás teljes egészében az Ön böngészőjében fut a WebAssembly és a Web API-k használatával. Nyissa meg a DevTools Hálózat lapját konvertálás közben – nem fog látni a fájlt továbbító kimenő forgalmat.
Ez tényleg ingyenes?
Igen. Nincs regisztráció, nincs kvóta, nincs frissítési szint. Az átalakítás az Ön gépén fut, tehát semmibe nem kerül a hosztolás.