専用コンバーター・100% ブラウザ内で動作

PDF→TXT OCR

OCR(Tesseract.js + pdf.js)を使い、スキャンや画像ベースのPDFからテキストを抽出します。各ページはキャンバスにレンダリングされてOCRされます。テキストが選択できないドキュメントでも機能します。複数ページの進捗は変換中に表示されます。

アップロードなし登録不要トラッキングなし無料・無制限
PDFファイルをここにドロップ
またはクリックしてファイルを選択

使い方

  1. PDFファイルをドロップ。
  2. ドロップダウンから文書の言語を選択。
  3. Tesseract.jsが言語データ(1言語あたり約10 MB、初回利用後はキャッシュ)を読み込みます。
  4. OCRがローカルで実行され、TXT出力がダウンロード用に提供されます。

よくある質問

OCRの精度はどのくらいですか?

Tesseractは最良クラスのオープンソースOCRエンジンの1つです。きれいで現代的なテキストなら通常95〜99%の精度です。手書き、低コントラストのスキャン、珍しいフォントでは精度が大きく下がることがあります。

初回の変換に時間がかかるのはなぜですか?

初回実行時に約10〜15 MBの言語データをダウンロードします。その後はセッション中ずっとキャッシュされます。

ドキュメントや画像はサーバーにアップロードされますか?

いいえ。変換は WebAssembly と Web API を使ってすべてブラウザ内で実行されます。変換中に DevTools の Network タブを開いてみてください。ファイルを運ぶ送信トラフィックは見当たりません。

これは本当に無料ですか?

はい。登録なし、上限なし、アップグレードプランもありません。変換はあなたのマシン上で実行されるため、私たちのホスティング費用はゼロです。