Conversor especializado · roda 100% no seu navegador
OCR de PDF para TXT
Extraia texto de um PDF digitalizado ou baseado em imagem usando OCR (Tesseract.js + pdf.js). Cada página é renderizada para um canvas e submetida a OCR. Funciona para documentos onde o texto não é selecionável. O progresso em documentos de várias páginas é mostrado durante a conversão.
Como usar
- Largue o seu ficheiro PDF.
- Selecione o idioma do documento no menu suspenso.
- O Tesseract.js carrega os dados do idioma (~10 MB por idioma, armazenados em cache após o primeiro uso).
- O OCR é executado localmente e o resultado TXT é disponibilizado para transferência.
FAQ
Qual é a precisão do OCR?
O Tesseract é um dos melhores motores OCR de código aberto. Para texto moderno e nítido, a precisão é tipicamente de 95 a 99%. Caligrafia, digitalizações de baixo contraste ou tipos de letra invulgares podem reduzir a precisão significativamente.
Por que a primeira conversão demora algum tempo?
A primeira execução transfere ~10 a 15 MB de dados de idioma. Depois disso, ficam em cache para o resto da sua sessão.
O meu documento ou imagem é carregado para um servidor?
Não. A conversão roda inteiramente no seu navegador usando WebAssembly e Web APIs. Abra a aba Network no DevTools enquanto converte — você não verá nenhum tráfego de saída carregando o seu arquivo.
Isso é realmente gratuito?
Sim. Sem cadastro, sem cota, sem plano pago. A conversão roda na sua máquina, então não nos custa nada hospedar.