专用转换器 · 100% 在浏览器中运行

PDF 转 TXT OCR

使用 OCR(Tesseract.js + pdf.js)从扫描或图片型 PDF 中提取文本。每页渲染到画布后进行 OCR 识别。适用于文本不可选中的文档。转换过程中显示多页进度。

无需上传无需注册无追踪免费,无限制使用
将您的 PDF 文件拖放至此
或点击选择文件

使用方法

  1. 拖放您的 PDF 文件。
  2. 从下拉菜单中选择文档语言。
  3. Tesseract.js 加载语言数据(每种语言约 10 MB,首次使用后缓存)。
  4. OCR 在本地运行,TXT 输出提供下载。

常见问题

OCR 的准确率如何?

Tesseract 是最优秀的开源 OCR 引擎之一。对于清晰的现代文本,准确率通常可达 95-99%。手写文字、低对比度扫描件或特殊字体可能显著降低准确率。

为什么第一次转换需要较长时间?

首次运行会下载约 10-15 MB 的语言数据。之后将在您的会话中缓存使用。

我的文档或图片会上传到服务器吗?

不会。转换完全在您的浏览器中通过 WebAssembly 和 Web API 运行。转换时打开 DevTools 的 Network 标签页——您不会看到携带您文件的出站流量。

这真的是免费的吗?

是的。无需注册,无配额,无升级档位。转换在您的机器上运行,因此对我们来说托管成本为零。