Trình chuyển đổi chuyên dụng · chạy 100% trong trình duyệt của bạn
PDF sang TXT OCR
Trích xuất văn bản từ tệp PDF được quét hoặc dựa trên hình ảnh bằng OCR (Tesseract.js + pdf.js). Mỗi trang được hiển thị dưới dạng canvas và OCR'd. Hoạt động cho các tài liệu không thể chọn được văn bản. Tiến trình nhiều trang được hiển thị khi quá trình chuyển đổi diễn ra.
Cách sử dụng
- Hãy thả tập tin PDF của bạn xuống.
- Chọn ngôn ngữ của tài liệu từ danh sách thả xuống.
- Tesseract.js tải dữ liệu ngôn ngữ (~10 MB mỗi ngôn ngữ, được lưu vào bộ đệm sau lần sử dụng đầu tiên).
- OCR chạy cục bộ và đầu ra TXT được cung cấp để tải xuống.
Câu hỏi thường gặp
OCR chính xác đến mức nào?
Tesseract là một trong những công cụ OCR nguồn mở tốt nhất. Để có văn bản rõ ràng, hiện đại, độ chính xác thường là 95-99%. Chữ viết tay, quét có độ tương phản thấp hoặc phông chữ bất thường có thể làm giảm độ chính xác đáng kể.
Tại sao lần chuyển đổi đầu tiên lại mất một khoảng thời gian?
Lần chạy đầu tiên tải xuống ~10-15 MB dữ liệu ngôn ngữ. Sau đó, nó được lưu vào bộ nhớ đệm cho phần còn lại của phiên của bạn.
Tài liệu hoặc hình ảnh của tôi có tải lên máy chủ không?
Không. Quá trình chuyển đổi chạy hoàn toàn trong trình duyệt của bạn bằng cách sử dụng WebAssembly và API Web. Mở tab Mạng trong DevTools trong khi chuyển đổi — bạn sẽ không thấy lưu lượng truy cập đi nào mang theo tệp của mình.
Cái này có thực sự miễn phí không?
Vâng. Không đăng ký, không hạn ngạch, không nâng cấp. Quá trình chuyển đổi diễn ra trên máy của bạn nên chúng tôi không mất phí lưu trữ.