Erikoistunut muuntaja · toimii 100 % selaimessasi
PDF to TXT OCR
Pura tekstiä skannatusta tai kuvapohjaisesta PDF-tiedostosta OCR:llä (Tesseract.js + pdf.js). Jokainen sivu renderöidään kankaalle ja tekstintunnistus suoritetaan. Toimii asiakirjoissa, joissa tekstiä ei voi valita. Usean sivun edistyminen näkyy muunnoksen aikana.
Kuinka käyttää
- Pudota PDF-tiedosto.
- Valitse asiakirjan kieli pudotusvalikosta.
- Tesseract.js lataa kielitiedot (noin 10 Mt kieltä kohden, välimuistissa ensimmäisen käytön jälkeen).
- OCR toimii paikallisesti ja TXT-lähtö tarjotaan ladattavaksi.
UKK
Kuinka tarkka OCR on?
Tesseract on yksi parhaista avoimen lähdekoodin OCR-moottoreista. Puhtaalle, nykyaikaiselle tekstille se on yleensä 95–99 % tarkka. Käsinkirjoitus, vähäkontrastiset skannaukset tai epätavalliset fontit voivat heikentää tarkkuutta merkittävästi.
Miksi ensimmäinen muunnos kestää jonkin aikaa?
Ensimmäinen ajo lataa ~10-15 Mt kielidataa. Sen jälkeen se tallennetaan välimuistiin koko istunnon ajan.
Ladataanko asiakirjani tai kuvani palvelimelle?
Ei. Muunnos suoritetaan kokonaan selaimessasi WebAssemblyn ja Web API:n avulla. Avaa Verkko-välilehti DevToolsissa muuntamisen aikana – et näe lähtevää liikennettä, joka kuljettaa tiedostoa.
Onko tämä todella ilmainen?
Kyllä. Ei rekisteröitymistä, ei kiintiötä, ei päivitystasoa. Muunnos suoritetaan koneellasi, joten isännöinti ei maksa meille mitään.