Erikoistunut muuntaja · toimii 100 % selaimessasi

PDF haettavaksi PDF-tekstintunnistus

Lisää näkymätön OCR-tekstikerros skannattuun PDF-tiedostoon, jotta siitä tulee haettavissa ja indeksoitavissa samalla, kun alkuperäiset sivukuvat säilyvät. Jokainen sivu renderöidään, tekstintunnistetaan ja rakennetaan uudelleen siten, että teksti on asetettu kuvan päälle oikeissa koordinaateissa. Tulostus on tavallinen PDF-tiedosto, joka avautuu missä tahansa lukijassa.

Ei lataustaEi kirjautumistaEi seurantaaIlmainen, rajoittamaton
Pudota PDF-tiedosto tähän
tai valitse tiedosto napsauttamalla

Kuinka käyttää

  1. Pudota PDF-tiedosto.
  2. Valitse asiakirjan kieli pudotusvalikosta.
  3. Tesseract.js lataa kielitiedot (noin 10 Mt kieltä kohden, välimuistissa ensimmäisen käytön jälkeen).
  4. OCR toimii paikallisesti ja haettavissa oleva PDF-tulostus tarjotaan ladattavaksi.

UKK

Kuinka tarkka OCR on?

Tesseract on yksi parhaista avoimen lähdekoodin OCR-moottoreista. Puhtaalle, nykyaikaiselle tekstille se on yleensä 95–99 % tarkka. Käsinkirjoitus, vähäkontrastiset skannaukset tai epätavalliset fontit voivat heikentää tarkkuutta merkittävästi.

Miksi ensimmäinen muunnos kestää jonkin aikaa?

Ensimmäinen ajo lataa ~10-15 Mt kielidataa. Sen jälkeen se tallennetaan välimuistiin koko istunnon ajan.

Ladataanko asiakirjani tai kuvani palvelimelle?

Ei. Muunnos suoritetaan kokonaan selaimessasi WebAssemblyn ja Web API:n avulla. Avaa Verkko-välilehti DevToolsissa muuntamisen aikana – et näe lähtevää liikennettä, joka kuljettaa tiedostoa.

Onko tämä todella ilmainen?

Kyllä. Ei rekisteröitymistä, ei kiintiötä, ei päivitystasoa. Muunnos suoritetaan koneellasi, joten isännöinti ei maksa meille mitään.