Специализиран конвертор · работи 100% във вашия браузър

PDF към TXT OCR

Извлечете текст от сканиран или базиран на изображение PDF с помощта на OCR (Tesseract.js + pdf.js). Всяка страница се изобразява на платно и се разпознава. Работи за документи, в които текстът не може да се избира. Напредъкът на много страници се показва, докато преобразуването се изпълнява.

Без качванеНяма регистрацияБез проследяванеБезплатно, неограничено
Пуснете своя PDF файл тук
или щракнете, за да изберете файл

Как се използва

  1. Пуснете своя PDF файл.
  2. Изберете езика на документа от падащото меню.
  3. Tesseract.js зарежда езиковите данни (~10 MB на език, кеширани след първото използване).
  4. OCR работи локално и TXT изходът се предлага за изтегляне.

ЧЗВ

Колко точно е OCR?

Tesseract е една от най-добрите OCR машини с отворен код. За чист, модерен текст обикновено е 95-99% точен. Почерк, сканиране с нисък контраст или необичайни шрифтове могат значително да намалят точността.

Защо първото преобразуване отнема известно време?

Първото изпълнение изтегля ~10-15 MB езикови данни. След това се кешира за останалата част от вашата сесия.

Качва ли се моят документ или изображение на сървър?

Не. Преобразуването се изпълнява изцяло във вашия браузър с помощта на WebAssembly и уеб API. Отворете раздела Мрежа в DevTools, докато конвертирате — няма да видите изходящ трафик, пренасящ вашия файл.

Това наистина ли е безплатно?

Да. Без регистрация, без квота, без надграждане. Преобразуването се изпълнява на вашата машина, така че не ни струва нищо за хостване.