ప్రత్యేక కన్వర్టర్ · మీ బ్రౌజర్లో 100% రన్ అవుతుంది
PDF నుండి TXT OCR
OCR (Tesseract.js + pdf.js) ఉపయోగించి స్కాన్ చేయబడిన లేదా ఇమేజ్-ఆధారిత PDF నుండి వచనాన్ని సంగ్రహించండి. ప్రతి పేజీ ఒక కాన్వాస్కి అందించబడుతుంది మరియు OCR'd. టెక్స్ట్ ఎంచుకోలేని పత్రాల కోసం పని చేస్తుంది. మార్పిడి నడుస్తున్నప్పుడు బహుళ-పేజీ పురోగతి చూపబడుతుంది.
ఎలా ఉపయోగించాలి
- మీ PDF ఫైల్ను వదలండి.
- డ్రాప్డౌన్ నుండి పత్రం యొక్క భాషను ఎంచుకోండి.
- Tesseract.js భాష డేటాను లోడ్ చేస్తుంది (ఒక భాషకు ~10 MB, మొదటి ఉపయోగం తర్వాత కాష్ చేయబడింది).
- OCR స్థానికంగా నడుస్తుంది మరియు TXT అవుట్పుట్ డౌన్లోడ్ కోసం అందించబడుతుంది.
తరచుగా అడిగే ప్రశ్నలు
OCR ఎంత ఖచ్చితమైనది?
టెస్సెరాక్ట్ అత్యుత్తమ ఓపెన్ సోర్స్ OCR ఇంజిన్లలో ఒకటి. శుభ్రమైన, ఆధునిక వచనం కోసం ఇది సాధారణంగా 95-99% ఖచ్చితమైనది. చేతివ్రాత, తక్కువ-కాంట్రాస్ట్ స్కాన్లు లేదా అసాధారణ ఫాంట్లు ఖచ్చితత్వాన్ని గణనీయంగా తగ్గించగలవు.
మొదటి మార్పిడికి కొంత సమయం ఎందుకు పడుతుంది?
మొదటి రన్ డౌన్లోడ్ ~10-15 MB భాషా డేటా. ఆ తర్వాత అది మీ మిగిలిన సెషన్లో కాష్ చేయబడుతుంది.
నా పత్రం లేదా చిత్రం సర్వర్కి అప్లోడ్ అవుతుందా?
సంఖ్య. మార్పిడి పూర్తిగా WebAssembly మరియు Web APIలను ఉపయోగించి మీ బ్రౌజర్లో నడుస్తుంది. మీరు మార్చేటప్పుడు DevToolsలో నెట్వర్క్ ట్యాబ్ను తెరవండి — మీ ఫైల్ని తీసుకువెళ్లే అవుట్బౌండ్ ట్రాఫిక్ మీకు కనిపించదు.
ఇది నిజంగా ఉచితం?
అవును. సైన్అప్ లేదు, కోటా లేదు, అప్గ్రేడ్ టైర్ లేదు. మార్పిడి మీ మెషీన్లో నడుస్తుంది, కాబట్టి హోస్ట్ చేయడానికి మాకు ఎటువంటి ఖర్చు ఉండదు.