Converter PDF digitalizado para Markdown com OCR

Resposta breve

Sim: uma digitalização vira Markdown selecionável

Um PDF digitalizado é só imagens de páginas, então copiar e colar não devolve nada ou caracteres ilegíveis. O PDF to Markdown detecta as páginas só de imagem e roda OCR (reconhecimento óptico de caracteres) automaticamente, transformando as imagens de texto em Markdown real e selecionável: títulos, listas, tabelas e tudo o mais. Funciona com documentos digitalizados em muitos idiomas, incluindo páginas com vários idiomas, e você pode converter no navegador sem se cadastrar.

Como fazer

Converta um PDF digitalizado em 4 passos

Sem conta. O OCR roda automaticamente, ou force-o quando um PDF tiver uma camada de texto ruim.

1

Abra o conversor

Instale a extensão do Chrome ou abra o app web. Ambos funcionam de forma anônima.

2

Adicione o PDF digitalizado

Arraste o arquivo, escolha-o do disco ou cole uma URL direta de PDF. O OCR roda automaticamente nas páginas só de imagem; ative forçar OCR quando a camada de texto existente estiver incorreta.

3

Aguarde o trabalho

O status passa por na fila, processando, pronto. O OCR é mais pesado que ler texto digital, então as digitalizações demoram mais que os PDFs nativos.

4

Copie ou baixe

Veja a prévia do Markdown renderizado e o código-fonte, depois copie-o para a área de transferência ou baixe um arquivo .md.

Dica: automatizando digitalizações em massa? Pule a interface e chame a API REST ou o MCP hospedado: o mesmo OCR, a partir do seu próprio código ou agente.

O que o OCR preserva

Mais do que apenas texto puro

Reconhecer caracteres é a parte fácil. O conversor reconstrói a estrutura do documento que uma digitalização perde, então o Markdown é útil tanto para pessoas quanto para modelos.

Muitos idiomas

Lê digitalizações em muitos idiomas, incluindo páginas com vários idiomas, e as converte em texto selecionável.

Tabelas reais

As colunas digitalizadas viram tabelas Markdown autênticas em vez de um amontoado de linhas desalinhadas.

Fórmulas mantidas

A notação matemática é mantida em vez de degradada em caracteres ilegíveis.

Forçar OCR

Substitua uma camada de texto ruim ou parcial e releia as imagens da página quando o texto embutido estiver incorreto.

Links e notas de rodapé

Quando existem, os hiperlinks e as notas de rodapé são preservados como links Markdown em vez de descartados.

Escolha de motor

Converta com MinerU ou Docling, conforme o documento e o resultado que você quer.

Qualidade na entrada, qualidade na saída

O que afeta a precisão do OCR

O OCR lê imagens de texto, então quanto mais limpa a digitalização, mais limpo o Markdown. Algumas poucas coisas fazem a maior diferença.

Melhores resultados

Páginas nítidas e de alta resolução. Por volta de 300 DPI ou mais, com texto nítido em vez de borrado.

Digitalizações retas e sem inclinação. Páginas verticais, não giradas nem deformadas.

Bom contraste. Texto escuro sobre um fundo claro e uniforme, sem muita transparência do verso.

Mais difícil para o OCR

Digitalizações fracas ou de baixa resolução. Cópias de cópias, ou capturas pequenas, perdem o detalhe que o OCR precisa.

Inclinação, sombras e desordem. Fotos de celular em ângulo, páginas curvadas ou fundos carregados reduzem a precisão.

Manuscritos. Os motores são voltados para texto impresso; notas manuscritas não são reconhecidas de forma confiável.

O que você pode converter: qualquer PDF até o limite de tamanho, incluindo documentos só de imagem, mistos (digital e digitalizado), layouts de várias colunas e tabelas. A saída é um único arquivo Markdown, ou o texto Markdown bruto via API.

Solução de problemas

Problemas comuns e soluções rápidas

Texto ilegível ou incorreto

O PDF tem uma camada de texto embutida ruim. Ative forçar OCR para que o conversor releia as imagens da página em vez de confiar nessa camada.

Nada reconhecido

Geralmente uma digitalização muito fraca ou girada. Digitalize de novo reto, em maior resolução, ou melhore o contraste, e converta novamente.

Resultado marcado como truncado

Uma digitalização longa atingiu o orçamento de tempo e foi devolvida parcialmente. Divida o documento em arquivos menores, ou use um plano pago com um orçamento maior.

Tabelas bagunçadas

Tente o outro motor: o MinerU é robusto com digitalizações e layouts complexos, enquanto o Docling é rápido com páginas limpas e simples.

Uma tabela reconhecida volta como Markdown real, pronta para colar ou indexar:

| Trimestre | Receita | Crescimento |
| --------- | ------- | ----------- |
| T1        | US$ 1,2 mi | +8%      |
| T2        | US$ 1,4 mi | +17%     |

O que esperar

Limites do plano gratuito e digitalizações longas

Limites do plano gratuito

Espaços ativos (profundidade da fila)3

Tamanho máximo de PDF10 MB

Orçamento de tempo por documento15 min

Retenção do resultado pronto1 hora

Os planos pagos ampliam cada limite e adicionam um orçamento de tempo maior para digitalizações pesadas. Comparar planos →

Digitalizações longas ou de baixa qualidade

Os resultados parciais são marcados. Se uma digitalização longa atingir o orçamento de tempo, você recebe o que foi processado, marcado truncated, em vez de um erro. Divida o arquivo ou use um orçamento pago maior.

A legibilidade importa. A precisão do OCR acompanha a digitalização: uma página limpa, reta e de resolução razoável é lida muito melhor que uma fraca ou inclinada.

Privado por padrão. Os arquivos são excluídos automaticamente após a janela de retenção e nunca são usados para publicidade nem para treinar modelos.

Convertendo digitalizações em escala?

O mesmo pipeline de OCR é uma API REST e um endpoint MCP hospedado, com descoberta legível por máquina para que scripts e agentes o controlem diretamente.

Hub para desenvolvedores OpenAPI Para IA e LLMs

Perguntas frequentes

Perguntas comuns

Dá para converter um PDF digitalizado para Markdown?

Sim. PDFs só de imagem e digitalizados passam por OCR automaticamente e viram Markdown selecionável: sem uma etapa de OCR à parte e sem configuração. Basta soltar o arquivo na extensão ou no app web.

O OCR lida com outros idiomas?

Sim. Funciona em muitos idiomas, incluindo documentos com vários idiomas, e converte o texto reconhecido em Markdown.

O PDF tem uma camada de texto ruim, posso forçar o OCR?

Sim. Ative forçar OCR para que o conversor releia as imagens da página em vez de confiar no texto embutido, o que corrige caracteres ilegíveis ou ausentes.

As tabelas e fórmulas são mantidas ao converter uma digitalização?

Sim. As colunas digitalizadas são reconstruídas como tabelas Markdown reais em vez de linhas desordenadas, e a notação matemática é mantida em vez de degradada. Veja extrair tabelas de PDF para Markdown para saber mais.

Por que meu resultado está marcado como truncado?

O OCR é lento, então uma digitalização muito longa pode atingir o orçamento de tempo por documento. O conversor devolve o que processou, marcado como resultado parcial (truncated). Um plano pago tem um orçamento maior, ou você pode dividir o arquivo.

Que qualidade de digitalização preciso para um bom OCR?

Busque páginas nítidas e retas a cerca de 300 DPI ou mais com bom contraste. Digitalizações fracas, de baixa resolução ou inclinadas ainda convertem, mas a precisão cai; digitalizar de novo com mais qualidade é a solução mais rápida.

Ele consegue ler manuscritos?

O OCR é voltado para texto impresso, então notas manuscritas não são reconhecidas de forma confiável. Documentos impressos e tipografados, incluindo digitalizações, funcionam bem.

É grátis e privado?

Sim. O plano gratuito oferece 3 espaços, arquivos de 10 MB, um orçamento de tempo de 15 minutos e retenção de 1 hora: anônimo no navegador, sem cartão. Os arquivos são excluídos automaticamente após a janela de retenção e nunca são usados para treinar modelos.