専用コンバータ · ブラウザで 100% 動作します

PDF から TXT OCR へ

OCR (Tesseract.js + pdf.js) を使用して、スキャンされた PDF または画像ベースの PDF からテキストを抽出します。各ページはキャンバスにレンダリングされ、OCR 処理されます。テキストが選択できない文書に有効です。変換の実行中に複数ページの進行状況が表示されます。

アップロードなしサインアップはありません追跡なし無料、無制限
ここに PDF ファイルをドロップしてください
またはクリックしてファイルを選択します

使用方法

  1. PDF ファイルをドロップします。
  2. ドロップダウンからドキュメントの言語を選択します。
  3. Tesseract.js は言語データを読み込みます (言語あたり最大 10 MB、最初の使用後にキャッシュされます)。
  4. OCR はローカルで実行され、TXT 出力はダウンロード用に提供されます。

よくある質問

OCR の精度はどのくらいですか?

Tesseract は、最高のオープンソース OCR エンジンの 1 つです。きれいで現代的なテキストの場合、通常は 95 ~ 99% の精度です。手書き、低コントラストのスキャン、または珍しいフォントを使用すると、精度が大幅に低下する可能性があります。

最初の変換に時間がかかるのはなぜですか?

最初の実行では、約 10 ~ 15 MB の言語データがダウンロードされます。その後、セッションの残りの間キャッシュされます。

私のドキュメントまたは画像はサーバーにアップロードされますか?

いいえ。変換は WebAssembly と Web API を使用してブラウザ内で完全に実行されます。変換中に DevTools の [ネットワーク] タブを開きます。ファイルを運ぶ送信トラフィックがないことがわかります。

これは本当に無料ですか?

はい。サインアップ、割り当て、アップグレード層はありません。変換はお客様のマシン上で実行されるため、ホストに費用はかかりません。