専用コンバータ · ブラウザで 100% 動作します
PDF から検索可能な PDF への OCR
スキャンした PDF に非表示の OCR テキスト レイヤーを追加すると、元のページのイメージを保持したまま検索可能かつインデックス付け可能になります。各ページはレンダリングされ、OCR 処理され、テキストが正しい座標で画像上に配置されて再構築されます。出力は、任意のリーダーで開く標準 PDF です。
使用方法
- PDF ファイルをドロップします。
- ドロップダウンからドキュメントの言語を選択します。
- Tesseract.js は言語データを読み込みます (言語あたり最大 10 MB、最初の使用後にキャッシュされます)。
- OCR はローカルで実行され、検索可能な PDF 出力がダウンロード用に提供されます。
よくある質問
OCR の精度はどのくらいですか?
Tesseract は、最高のオープンソース OCR エンジンの 1 つです。きれいで現代的なテキストの場合、通常は 95 ~ 99% の精度です。手書き、低コントラストのスキャン、または珍しいフォントを使用すると、精度が大幅に低下する可能性があります。
最初の変換に時間がかかるのはなぜですか?
最初の実行では、約 10 ~ 15 MB の言語データがダウンロードされます。その後、セッションの残りの間キャッシュされます。
私のドキュメントまたは画像はサーバーにアップロードされますか?
いいえ。変換は WebAssembly と Web API を使用してブラウザ内で完全に実行されます。変換中に DevTools の [ネットワーク] タブを開きます。ファイルを運ぶ送信トラフィックがないことがわかります。
これは本当に無料ですか?
はい。サインアップ、割り当て、アップグレード層はありません。変換はお客様のマシン上で実行されるため、ホストに費用はかかりません。