مبدّل تخصصی · ۱۰۰٪ در مرورگر شما اجرا می‌شود

OCR PDF به TXT

متن را از یک PDF اسکن‌شده یا مبتنی‌بر‌تصویر با استفاده از OCR (Tesseract.js + pdf.js) استخراج کنید. هر صفحه روی یک Canvas رندر شده و OCR می‌شود. برای اسنادی که متن آن‌ها قابل انتخاب نیست کار می‌کند. پیشرفت چندصفحه‌ای هنگام اجرای تبدیل نمایش داده می‌شود.

بدون آپلودبدون ثبت‌نامبدون ردیابیرایگان، بدون محدودیت
فایل PDF خود را اینجا رها کنید
یا برای انتخاب فایل کلیک کنید

نحوه استفاده

  1. فایل PDF خود را رها کنید.
  2. زبان سند را از منوی کشویی انتخاب کنید.
  3. Tesseract.js داده‌های زبان را بارگیری می‌کند (حدود ۱۰ مگابایت به ازای هر زبان، پس از اولین استفاده کَش می‌شود).
  4. OCR به‌صورت محلی اجرا می‌شود و خروجی TXT برای دانلود ارائه می‌شود.

پرسش‌های متداول

دقت OCR چقدر است؟

Tesseract یکی از بهترین موتورهای OCR متن‌باز است. برای متن‌های تمیز و مدرن معمولاً دقت ۹۵ تا ۹۹ درصد دارد. دست‌نویس، اسکن‌های کم‌کنتراست یا فونت‌های غیرمعمول می‌توانند دقت را به‌طور قابل‌توجهی کاهش دهند.

چرا اولین تبدیل طول می‌کشد؟

اولین اجرا حدود ۱۰ تا ۱۵ مگابایت داده زبان دانلود می‌کند. پس از آن برای بقیه جلسه شما کَش می‌شود.

آیا سند یا تصویر من به سرور آپلود می‌شود؟

خیر. تبدیل کاملاً در مرورگر شما با استفاده از WebAssembly و Web APIs اجرا می‌شود. در حین تبدیل تب Network در DevTools را باز کنید — هیچ ترافیک خروجی حامل فایل شما نخواهید دید.

آیا این واقعاً رایگان است؟

بله. بدون ثبت‌نام، بدون سهمیه، بدون سطح ارتقا. تبدیل روی دستگاه شما اجرا می‌شود، پس برای ما هزینه‌ای برای میزبانی ندارد.