専用コンバータ · ブラウザで 100% 動作します
PDF から TXT OCR へ
OCR (Tesseract.js + pdf.js) を使用して、スキャンされた PDF または画像ベースの PDF からテキストを抽出します。各ページはキャンバスにレンダリングされ、OCR 処理されます。テキストが選択できない文書に有効です。変換の実行中に複数ページの進行状況が表示されます。
使用方法
- PDF ファイルをドロップします。
- ドロップダウンからドキュメントの言語を選択します。
- Tesseract.js は言語データを読み込みます (言語あたり最大 10 MB、最初の使用後にキャッシュされます)。
- OCR はローカルで実行され、TXT 出力はダウンロード用に提供されます。
よくある質問
OCR の精度はどのくらいですか?
Tesseract は、最高のオープンソース OCR エンジンの 1 つです。きれいで現代的なテキストの場合、通常は 95 ~ 99% の精度です。手書き、低コントラストのスキャン、または珍しいフォントを使用すると、精度が大幅に低下する可能性があります。
最初の変換に時間がかかるのはなぜですか?
最初の実行では、約 10 ~ 15 MB の言語データがダウンロードされます。その後、セッションの残りの間キャッシュされます。
私のドキュメントまたは画像はサーバーにアップロードされますか?
いいえ。変換は WebAssembly と Web API を使用してブラウザ内で完全に実行されます。変換中に DevTools の [ネットワーク] タブを開きます。ファイルを運ぶ送信トラフィックがないことがわかります。
これは本当に無料ですか?
はい。サインアップ、割り当て、アップグレード層はありません。変換はお客様のマシン上で実行されるため、ホストに費用はかかりません。