Erikoistunut muuntaja · toimii 100 % selaimessasi

PDF to TXT OCR

Pura tekstiä skannatusta tai kuvapohjaisesta PDF-tiedostosta OCR:llä (Tesseract.js + pdf.js). Jokainen sivu renderöidään kankaalle ja tekstintunnistus suoritetaan. Toimii asiakirjoissa, joissa tekstiä ei voi valita. Usean sivun edistyminen näkyy muunnoksen aikana.

Ei lataustaEi kirjautumistaEi seurantaaIlmainen, rajoittamaton
Pudota PDF-tiedosto tähän
tai valitse tiedosto napsauttamalla

Kuinka käyttää

  1. Pudota PDF-tiedosto.
  2. Valitse asiakirjan kieli pudotusvalikosta.
  3. Tesseract.js lataa kielitiedot (noin 10 Mt kieltä kohden, välimuistissa ensimmäisen käytön jälkeen).
  4. OCR toimii paikallisesti ja TXT-lähtö tarjotaan ladattavaksi.

UKK

Kuinka tarkka OCR on?

Tesseract on yksi parhaista avoimen lähdekoodin OCR-moottoreista. Puhtaalle, nykyaikaiselle tekstille se on yleensä 95–99 % tarkka. Käsinkirjoitus, vähäkontrastiset skannaukset tai epätavalliset fontit voivat heikentää tarkkuutta merkittävästi.

Miksi ensimmäinen muunnos kestää jonkin aikaa?

Ensimmäinen ajo lataa ~10-15 Mt kielidataa. Sen jälkeen se tallennetaan välimuistiin koko istunnon ajan.

Ladataanko asiakirjani tai kuvani palvelimelle?

Ei. Muunnos suoritetaan kokonaan selaimessasi WebAssemblyn ja Web API:n avulla. Avaa Verkko-välilehti DevToolsissa muuntamisen aikana – et näe lähtevää liikennettä, joka kuljettaa tiedostoa.

Onko tämä todella ilmainen?

Kyllä. Ei rekisteröitymistä, ei kiintiötä, ei päivitystasoa. Muunnos suoritetaan koneellasi, joten isännöinti ei maksa meille mitään.