Referencia

Glosario de PDF a Markdown

Definiciones breves y en lenguaje claro de los términos que aparecen al convertir PDF en Markdown limpio y listo para LLM: desde OCR y orden de lectura hasta RAG, chunking y MCP alojado. Cada uno enlaza a la guía que profundiza.

Definiciones

Los términos, de la A a la Z

Chunking

Dividir un documento en pasajes más pequeños para que un sistema de recuperación o un LLM pueda indexarlos y buscarlos. El Markdown limpio se fragmenta mucho mejor que el texto crudo de un PDF porque los encabezados y las tablas quedan intactos. Consulta Markdown para RAG.

Motor de conversión

El componente que lee un PDF y produce Markdown. pdf2md.dev ejecuta dos motores de código abierto: Docling (rápido en documentos limpios) y MinerU (robusto en maquetaciones densas y complejas). Consulta tablas a Markdown.

Embeddings

Representaciones numéricas en forma de vector del texto que permiten a un sistema encontrar pasajes por significado en vez de por palabras exactas. Impulsan la recuperación en un pipeline RAG; embebes los fragmentos Markdown de un documento. Consulta Markdown para RAG.

Fórmulas (LaTeX / matemáticas)

Notación matemática en un documento. Un buen conversor conserva las ecuaciones, a menudo como LaTeX, en vez de aplanarlas en caracteres ilegibles. Consulta tablas y fórmulas.

MCP alojado

MCP (Model Context Protocol) es un estándar abierto que permite a los agentes de IA llamar a herramientas externas. Un endpoint MCP alojado expone la conversión de PDF a Markdown como una herramienta que un agente puede llamar directamente, sin configuración local. Consulta el hub para desarrolladores.

Markdown

Un formato de texto plano ligero que marca encabezados, listas, tablas, enlaces y código con símbolos sencillos. Es compacto, comparable con diff y la forma preferida de pasar documentos a los LLM. Consulta PDF a Markdown para IA.

OCR

Reconocimiento óptico de caracteres: convertir el texto dentro de una imagen o una página escaneada en caracteres reales y seleccionables. Es lo que hace que un PDF escaneado se pueda convertir en Markdown editable. Consulta PDF escaneado a Markdown.

PDF a Markdown

Convertir un PDF, cuyo texto se guarda por posición en vez de como estructura, en Markdown limpio con encabezados, tablas y listas reales. El resultado es editable, buscable y listo para los LLM. Pruébalo.

RAG

Generación aumentada por recuperación: un patrón en el que un LLM responde usando pasajes recuperados de tus propios documentos en vez de solo sus datos de entrenamiento. Convertir PDF en Markdown limpio es el primer paso en la mayoría de los pipelines RAG. Consulta Markdown para RAG.

Orden de lectura

La secuencia correcta en la que debe leerse el texto de una página, sobre todo entre varias columnas. Un PDF no la guarda, así que un conversor debe reconstruirla para evitar una salida desordenada. Consulta tablas a Markdown.

API REST

Una interfaz web para manejar el conversor desde código: crear un trabajo, consultar su estado y luego descargar el Markdown. Permite convertir PDF de forma programática o desde un agente. Consulta el tutorial de Python.

PDF escaneado

Un PDF cuyas páginas son imágenes, por ejemplo papel fotografiado o escaneado, sin capa de texto subyacente. Necesita OCR antes de que su contenido pueda convertirse en Markdown. Consulta PDF escaneado a Markdown.

Reconstrucción de tablas

Reconstruir las filas y columnas que un PDF solo dibuja visualmente en una tabla Markdown real, en vez de una captura de pantalla o líneas desalineadas. Consulta tablas a Markdown.

Tokens

Las unidades, aproximadamente fragmentos de palabra, que un LLM cuenta para los límites de contexto y el precio. El Markdown limpio usa menos tokens que el texto extraído desordenado, así que cabe más documento en un prompt. Consulta Markdown para RAG.

Base de datos vectorial

Un almacén de embeddings que recupera los pasajes más parecidos en significado a una consulta. Guarda los fragmentos Markdown embebidos que busca un sistema RAG. Consulta Markdown para RAG.

De los términos a un archivo convertido

Pon el glosario a trabajar: suelta un PDF y obtén Markdown limpio con OCR, tablas reales y fórmulas, gratis, en el navegador, o desde una API REST y un MCP alojado.