Специализированный конвертер · работает на 100% в браузере
Распознавание текста из PDF (OCR)
Извлекайте текст из отсканированного или основанного на изображениях PDF с помощью OCR (Tesseract.js + pdf.js). Каждая страница отрисовывается в canvas и распознаётся. Работает для документов, где текст нельзя выделить. Прогресс для многостраничных документов отображается в процессе конвертации.
Как использовать
- Перетащите файл PDF.
- Выберите язык документа из списка.
- Tesseract.js загружает языковые данные (~10 МБ на язык, кэшируется после первого использования).
- OCR выполняется локально, результат TXT предлагается для скачивания.
FAQ
Насколько точен OCR?
Tesseract — один из лучших OCR-движков с открытым исходным кодом. Для чистого, современного текста точность обычно составляет 95–99%. Рукописный текст, низкоконтрастные сканы или необычные шрифты могут существенно снизить точность.
Почему первая конвертация занимает некоторое время?
При первом запуске загружается ~10–15 МБ языковых данных. После этого они кэшируются до конца вашей сессии.
Загружается ли мой документ или изображение на сервер?
Нет. Конвертация полностью выполняется в браузере с помощью WebAssembly и Web API. Откройте вкладку Network в DevTools во время конвертации — вы не увидите исходящего трафика с вашим файлом.
Это действительно бесплатно?
Да. Без регистрации, без квот, без платных уровней. Конвертация выполняется на вашем устройстве, поэтому нам это ничего не стоит.