Специализированный конвертер · полностью работает в вашем браузере

PDF в TXT OCR

Извлекайте текст из отсканированного PDF-файла или PDF-файла на основе изображения с помощью OCR (Tesseract.js + pdf.js). Каждая страница отображается на холсте и подвергается распознаванию. Работает для документов, в которых текст нельзя выделить. Многостраничный прогресс отображается по мере выполнения преобразования.

Нет загрузкиБез регистрацииНет отслеживанияБесплатно, без ограничений
Перетащите сюда свой PDF-файл.
или нажмите, чтобы выбрать файл

Как использовать

  1. Перетащите PDF-файл.
  2. Выберите язык документа из раскрывающегося списка.
  3. Tesseract.js загружает данные языка (~ 10 МБ на каждый язык, кэшируется после первого использования).
  4. OCR выполняется локально, а выходные данные TXT доступны для загрузки.

Часто задаваемые вопросы

Насколько точно OCR?

Tesseract — один из лучших механизмов оптического распознавания символов с открытым исходным кодом. Для чистого, современного текста точность обычно составляет 95–99%. Рукописный ввод, сканирование с низкой контрастностью или необычные шрифты могут значительно снизить точность.

Почему первое преобразование занимает некоторое время?

При первом запуске загружается около 10–15 МБ языковых данных. После этого он кэшируется до конца сеанса.

Загружается ли мой документ или изображение на сервер?

Нет. Преобразование полностью выполняется в вашем браузере с использованием WebAssembly и веб-API. Откройте вкладку «Сеть» в DevTools во время преобразования — вы не увидите исходящего трафика, передающего ваш файл.

Это действительно бесплатно?

Да. Нет регистрации, нет квоты, нет уровня обновления. Преобразование выполняется на вашем компьютере, поэтому размещение на хосте нам ничего не стоит.