Специализиран конвертор · работи 100% във вашия браузър
PDF към TXT OCR
Извлечете текст от сканиран или базиран на изображение PDF с помощта на OCR (Tesseract.js + pdf.js). Всяка страница се изобразява на платно и се разпознава. Работи за документи, в които текстът не може да се избира. Напредъкът на много страници се показва, докато преобразуването се изпълнява.
Как се използва
- Пуснете своя PDF файл.
- Изберете езика на документа от падащото меню.
- Tesseract.js зарежда езиковите данни (~10 MB на език, кеширани след първото използване).
- OCR работи локално и TXT изходът се предлага за изтегляне.
ЧЗВ
Колко точно е OCR?
Tesseract е една от най-добрите OCR машини с отворен код. За чист, модерен текст обикновено е 95-99% точен. Почерк, сканиране с нисък контраст или необичайни шрифтове могат значително да намалят точността.
Защо първото преобразуване отнема известно време?
Първото изпълнение изтегля ~10-15 MB езикови данни. След това се кешира за останалата част от вашата сесия.
Качва ли се моят документ или изображение на сървър?
Не. Преобразуването се изпълнява изцяло във вашия браузър с помощта на WebAssembly и уеб API. Отворете раздела Мрежа в DevTools, докато конвертирате — няма да видите изходящ трафик, пренасящ вашия файл.
Това наистина ли е безплатно?
Да. Без регистрация, без квота, без надграждане. Преобразуването се изпълнява на вашата машина, така че не ни струва нищо за хостване.