Referência

Glossário de PDF para Markdown

Definições curtas e em linguagem clara dos termos que aparecem quando você converte PDF em Markdown limpo e pronto para LLM: de OCR e ordem de leitura a RAG, chunking e MCP hospedado. Cada um leva ao guia que aprofunda o assunto.

Definições

Os termos, de A a Z

Chunking

Dividir um documento em trechos menores para que um sistema de recuperação ou um LLM possa indexá-los e buscá-los. O Markdown limpo se fragmenta muito melhor que o texto cru de um PDF porque os títulos e as tabelas ficam intactos. Veja Markdown para RAG.

Motor de conversão

O componente que lê um PDF e produz Markdown. O pdf2md.dev roda dois motores de código aberto: Docling (rápido em documentos limpos) e MinerU (robusto em layouts densos e complexos). Veja tabelas para Markdown.

Embeddings

Representações numéricas em forma de vetor do texto que permitem a um sistema encontrar trechos por significado em vez de palavras exatas. Elas impulsionam a recuperação em um pipeline RAG; você faz o embedding dos fragmentos Markdown de um documento. Veja Markdown para RAG.

Fórmulas (LaTeX / matemática)

Notação matemática em um documento. Um bom conversor preserva as equações, muitas vezes como LaTeX, em vez de achatá-las em caracteres ilegíveis. Veja tabelas e fórmulas.

MCP hospedado

MCP (Model Context Protocol) é um padrão aberto que permite a agentes de IA chamar ferramentas externas. Um endpoint MCP hospedado expõe a conversão de PDF para Markdown como uma ferramenta que um agente pode chamar diretamente, sem configuração local. Veja o hub para desenvolvedores.

Markdown

Um formato de texto puro e leve que marca títulos, listas, tabelas, links e código com símbolos simples. É compacto, comparável por diff e a forma preferida de passar documentos aos LLMs. Veja PDF para Markdown para IA.

OCR

Reconhecimento óptico de caracteres: converter o texto dentro de uma imagem ou de uma página digitalizada em caracteres reais e selecionáveis. É o que torna um PDF digitalizado conversível em Markdown editável. Veja PDF digitalizado para Markdown.

PDF para Markdown

Converter um PDF, cujo texto é guardado por posição em vez de como estrutura, em Markdown limpo com títulos, tabelas e listas reais. O resultado é editável, pesquisável e pronto para os LLMs. Experimente.

RAG

Geração aumentada por recuperação: um padrão em que um LLM responde usando trechos recuperados dos seus próprios documentos em vez de apenas seus dados de treinamento. Converter PDF em Markdown limpo é o primeiro passo na maioria dos pipelines RAG. Veja Markdown para RAG.

Ordem de leitura

A sequência correta em que o texto de uma página deve ser lido, sobretudo entre várias colunas. Um PDF não a guarda, então um conversor precisa reconstruí-la para evitar uma saída desordenada. Veja tabelas para Markdown.

REST API

Uma interface web para controlar o conversor a partir de código: criar um job, consultar seu status e depois baixar o Markdown. Permite converter PDF de forma programática ou a partir de um agente. Veja o tutorial de Python.

PDF digitalizado

Um PDF cujas páginas são imagens, por exemplo papel fotografado ou digitalizado, sem camada de texto subjacente. Precisa de OCR antes que seu conteúdo possa virar Markdown. Veja PDF digitalizado para Markdown.

Reconstrução de tabelas

Reconstruir as linhas e colunas que um PDF apenas desenha visualmente em uma tabela Markdown real, em vez de uma captura de tela ou linhas desalinhadas. Veja tabelas para Markdown.

Tokens

As unidades, aproximadamente fragmentos de palavra, que um LLM conta para os limites de contexto e o preço. O Markdown limpo usa menos tokens que o texto extraído desordenado, então cabe mais documento em um prompt. Veja Markdown para RAG.

Banco de dados vetorial

Um repositório de embeddings que recupera os trechos mais parecidos em significado com uma consulta. Guarda os fragmentos Markdown com embedding que um sistema RAG busca. Veja Markdown para RAG.

Dos termos a um arquivo convertido

Coloque o glossário para trabalhar: solte um PDF e obtenha Markdown limpo com OCR, tabelas reais e fórmulas, grátis, no navegador, ou a partir de uma REST API e um MCP hospedado.