Converter PDF digitalizado para Markdown com OCR
Solte um PDF só de imagem ou digitalizado e receba Markdown limpo e selecionável. O OCR integrado funciona em muitos idiomas, reconstrói tabelas reais e mantém fórmulas, sem conta e sem uma etapa de OCR à parte.
Sim: uma digitalização vira Markdown selecionável
Um PDF digitalizado é só imagens de páginas, então copiar e colar não devolve nada ou caracteres ilegíveis. O PDF to Markdown detecta as páginas só de imagem e roda OCR (reconhecimento óptico de caracteres) automaticamente, transformando as imagens de texto em Markdown real e selecionável: títulos, listas, tabelas e tudo o mais. Funciona com documentos digitalizados em muitos idiomas, incluindo páginas com vários idiomas, e você pode converter no navegador sem se cadastrar.
Converta um PDF digitalizado em 4 passos
Sem conta. O OCR roda automaticamente, ou force-o quando um PDF tiver uma camada de texto ruim.
Abra o conversor
Instale a extensão do Chrome ou abra o app web. Ambos funcionam de forma anônima.
Adicione o PDF digitalizado
Arraste o arquivo, escolha-o do disco ou cole uma URL direta de PDF. O OCR roda automaticamente nas páginas só de imagem; ative forçar OCR quando a camada de texto existente estiver incorreta.
Aguarde o trabalho
O status passa por na fila, processando, pronto. O OCR é mais pesado que ler texto digital, então as digitalizações demoram mais que os PDFs nativos.
Copie ou baixe
Veja a prévia do Markdown renderizado e o código-fonte, depois copie-o para a área de transferência ou baixe um arquivo .md.
Dica: automatizando digitalizações em massa? Pule a interface e chame a API REST ou o MCP hospedado: o mesmo OCR, a partir do seu próprio código ou agente.
Mais do que apenas texto puro
Reconhecer caracteres é a parte fácil. O conversor reconstrói a estrutura do documento que uma digitalização perde, então o Markdown é útil tanto para pessoas quanto para modelos.
Muitos idiomas
Lê digitalizações em muitos idiomas, incluindo páginas com vários idiomas, e as converte em texto selecionável.
Tabelas reais
As colunas digitalizadas viram tabelas Markdown autênticas em vez de um amontoado de linhas desalinhadas.
Fórmulas mantidas
A notação matemática é mantida em vez de degradada em caracteres ilegíveis.
Forçar OCR
Substitua uma camada de texto ruim ou parcial e releia as imagens da página quando o texto embutido estiver incorreto.
Links e notas de rodapé
Quando existem, os hiperlinks e as notas de rodapé são preservados como links Markdown em vez de descartados.
Escolha de motor
Converta com MinerU ou Docling, conforme o documento e o resultado que você quer.
O que afeta a precisão do OCR
O OCR lê imagens de texto, então quanto mais limpa a digitalização, mais limpo o Markdown. Algumas poucas coisas fazem a maior diferença.
Melhores resultados
Mais difícil para o OCR
O que você pode converter: qualquer PDF até o limite de tamanho, incluindo documentos só de imagem, mistos (digital e digitalizado), layouts de várias colunas e tabelas. A saída é um único arquivo Markdown, ou o texto Markdown bruto via API.
Problemas comuns e soluções rápidas
Texto ilegível ou incorreto
O PDF tem uma camada de texto embutida ruim. Ative forçar OCR para que o conversor releia as imagens da página em vez de confiar nessa camada.
Nada reconhecido
Geralmente uma digitalização muito fraca ou girada. Digitalize de novo reto, em maior resolução, ou melhore o contraste, e converta novamente.
Resultado marcado como truncado
Uma digitalização longa atingiu o orçamento de tempo e foi devolvida parcialmente. Divida o documento em arquivos menores, ou use um plano pago com um orçamento maior.
Tabelas bagunçadas
Tente o outro motor: o MinerU é robusto com digitalizações e layouts complexos, enquanto o Docling é rápido com páginas limpas e simples.
Uma tabela reconhecida volta como Markdown real, pronta para colar ou indexar:
| Trimestre | Receita | Crescimento | | --------- | ------- | ----------- | | T1 | US$ 1,2 mi | +8% | | T2 | US$ 1,4 mi | +17% |
Limites do plano gratuito e digitalizações longas
Limites do plano gratuito
Os planos pagos ampliam cada limite e adicionam um orçamento de tempo maior para digitalizações pesadas. Comparar planos →
Digitalizações longas ou de baixa qualidade
truncated, em vez de um erro. Divida o arquivo ou use um orçamento pago maior.Convertendo digitalizações em escala?
O mesmo pipeline de OCR é uma API REST e um endpoint MCP hospedado, com descoberta legível por máquina para que scripts e agentes o controlem diretamente.
Perguntas comuns
Dá para converter um PDF digitalizado para Markdown?
Sim. PDFs só de imagem e digitalizados passam por OCR automaticamente e viram Markdown selecionável: sem uma etapa de OCR à parte e sem configuração. Basta soltar o arquivo na extensão ou no app web.
O OCR lida com outros idiomas?
Sim. Funciona em muitos idiomas, incluindo documentos com vários idiomas, e converte o texto reconhecido em Markdown.
O PDF tem uma camada de texto ruim, posso forçar o OCR?
Sim. Ative forçar OCR para que o conversor releia as imagens da página em vez de confiar no texto embutido, o que corrige caracteres ilegíveis ou ausentes.
As tabelas e fórmulas são mantidas ao converter uma digitalização?
Sim. As colunas digitalizadas são reconstruídas como tabelas Markdown reais em vez de linhas desordenadas, e a notação matemática é mantida em vez de degradada. Veja extrair tabelas de PDF para Markdown para saber mais.
Por que meu resultado está marcado como truncado?
O OCR é lento, então uma digitalização muito longa pode atingir o orçamento de tempo por documento. O conversor devolve o que processou, marcado como resultado parcial (truncated). Um plano pago tem um orçamento maior, ou você pode dividir o arquivo.
Que qualidade de digitalização preciso para um bom OCR?
Busque páginas nítidas e retas a cerca de 300 DPI ou mais com bom contraste. Digitalizações fracas, de baixa resolução ou inclinadas ainda convertem, mas a precisão cai; digitalizar de novo com mais qualidade é a solução mais rápida.
Ele consegue ler manuscritos?
O OCR é voltado para texto impresso, então notas manuscritas não são reconhecidas de forma confiável. Documentos impressos e tipografados, incluindo digitalizações, funcionam bem.
É grátis e privado?
Sim. O plano gratuito oferece 3 espaços, arquivos de 10 MB, um orçamento de tempo de 15 minutos e retenção de 1 hora: anônimo no navegador, sem cartão. Os arquivos são excluídos automaticamente após a janela de retenção e nunca são usados para treinar modelos.