Convertir PDF escaneado a Markdown con OCR

Respuesta breve

Sí: un escaneo se convierte en Markdown seleccionable

Un PDF escaneado son solo imágenes de páginas, así que copiar y pegar no devuelve nada o caracteres ilegibles. PDF to Markdown detecta las páginas de solo imagen y ejecuta OCR (reconocimiento óptico de caracteres) automáticamente, convirtiendo las imágenes de texto en Markdown real y seleccionable: encabezados, listas, tablas y todo. Funciona con documentos escaneados en muchos idiomas, incluidas páginas con varios idiomas, y puedes convertir en el navegador sin registrarte.

Cómo

Convierte un PDF escaneado en 4 pasos

Sin cuenta. El OCR se ejecuta automáticamente, o fuérzalo cuando un PDF tiene una capa de texto defectuosa.

1

Abre el conversor

Instala la extensión de Chrome o abre la app web. Ambas funcionan de forma anónima.

2

Añade el PDF escaneado

Arrastra el archivo, elígelo del disco o pega una URL directa de PDF. El OCR se ejecuta automáticamente en las páginas de solo imagen; activa forzar OCR cuando la capa de texto existente es incorrecta.

3

Espera el trabajo

El estado pasa por en cola, procesando, listo. El OCR es más pesado que leer texto digital, así que los escaneos tardan más que los PDF nativos.

4

Copia o descarga

Previsualiza el Markdown renderizado y el código fuente, luego cópialo al portapapeles o descarga un archivo .md.

Consejo: ¿automatizas escaneos en masa? Sáltate la interfaz y llama a la API REST o el MCP alojado: el mismo OCR, desde tu propio código o agente.

Qué conserva el OCR

Más que solo texto plano

Reconocer caracteres es la parte fácil. El conversor reconstruye la estructura del documento que un escaneo pierde, así el Markdown es útil tanto para personas como para modelos.

Muchos idiomas

Lee escaneos en muchos idiomas, incluidas páginas con varios idiomas, y los convierte en texto seleccionable.

Tablas reales

Las columnas escaneadas se convierten en tablas Markdown auténticas en vez de un amasijo de líneas desalineadas.

Fórmulas conservadas

La notación matemática se conserva en lugar de degradarse a caracteres ilegibles.

Forzar OCR

Anula una capa de texto defectuosa o parcial y vuelve a leer las imágenes de la página cuando el texto incrustado es incorrecto.

Enlaces y notas al pie

Cuando existen, los hipervínculos y las notas al pie se conservan como enlaces Markdown en vez de descartarse.

Elección de motor

Convierte con MinerU o Docling, según el documento y el resultado que quieras.

Calidad de entrada, calidad de salida

Qué afecta a la precisión del OCR

El OCR lee imágenes de texto, así que cuanto más limpio el escaneo, más limpio el Markdown. Unas pocas cosas marcan la mayor diferencia.

Mejores resultados

Páginas nítidas y de alta resolución. Alrededor de 300 DPI o más, con texto nítido en lugar de borroso.

Escaneos rectos y sin inclinación. Páginas verticales, no giradas ni deformadas.

Buen contraste. Texto oscuro sobre un fondo claro y uniforme, sin demasiada transparencia del reverso.

Más difícil para el OCR

Escaneos tenues o de baja resolución. Copias de copias, o capturas pequeñas, pierden el detalle que el OCR necesita.

Inclinación, sombras y desorden. Fotos de móvil en ángulo, páginas curvadas o fondos recargados reducen la precisión.

Escritura a mano. Los motores se enfocan en texto impreso; las notas manuscritas no se reconocen de forma fiable.

Qué puedes convertir: cualquier PDF hasta el límite de tamaño, incluidos documentos de solo imagen, mixtos (digital y escaneado), diseños multicolumna y tablas. La salida es un único archivo Markdown, o el texto Markdown en bruto a través de la API.

Solución de problemas

Problemas habituales y soluciones rápidas

Texto ilegible o incorrecto

El PDF tiene una capa de texto incrustada defectuosa. Activa forzar OCR para que el conversor vuelva a leer las imágenes de la página en vez de fiarse de esa capa.

No se reconoce nada

Normalmente un escaneo muy tenue o girado. Vuelve a escanear recto a mayor resolución, o mejora el contraste, y convierte de nuevo.

Resultado marcado como truncado

Un escaneo largo alcanzó el presupuesto de tiempo y se devolvió parcialmente. Divide el documento en archivos más pequeños, o usa un plan de pago con un presupuesto mayor.

Tablas desordenadas

Prueba el otro motor: MinerU es robusto con escaneos y diseños complejos, mientras que Docling es rápido con páginas limpias y sencillas.

Una tabla reconocida vuelve como Markdown real, lista para pegar o indexar:

| Trimestre | Ingresos | Crecimiento |
| --------- | -------- | ----------- |
| T1        | 1,2 M $  | +8 %        |
| T2        | 1,4 M $  | +17 %       |

Qué esperar

Límites del plan gratuito y escaneos largos

Límites del plan gratuito

Espacios activos (profundidad de cola)3

Tamaño máximo de PDF10 MB

Presupuesto de tiempo por documento15 min

Retención del resultado listo1 hora

Los planes de pago amplían cada límite y añaden un presupuesto de tiempo mayor para escaneos pesados. Comparar planes →

Escaneos largos o de baja calidad

Los resultados parciales se marcan. Si un escaneo largo alcanza el presupuesto de tiempo, obtienes lo procesado, marcado truncated, en vez de un error. Divide el archivo o usa un presupuesto de pago mayor.

La legibilidad importa. La precisión del OCR sigue al escaneo: una página limpia, recta y de resolución razonable se lee mucho mejor que una tenue o inclinada.

Privado por defecto. Los archivos se eliminan automáticamente tras la ventana de retención y nunca se usan para publicidad ni para entrenar modelos.

¿Conviertes escaneos a escala?

El mismo pipeline de OCR es una API REST y un endpoint MCP alojado, con descubrimiento legible por máquina para que scripts y agentes lo controlen directamente.

Hub para desarrolladores OpenAPI Para IA y LLM

Preguntas frecuentes

Preguntas habituales

¿Puede convertir un PDF escaneado a Markdown?

Sí. Los PDF de solo imagen y escaneados se procesan con OCR automáticamente y se convierten en Markdown seleccionable: sin un paso de OCR aparte y sin configuración. Solo suelta el archivo en la extensión o la app web.

¿El OCR maneja otros idiomas?

Sí. Funciona en muchos idiomas, incluidos documentos con varios idiomas, y convierte el texto reconocido en Markdown.

El PDF tiene una capa de texto defectuosa, ¿puedo forzar el OCR?

Sí. Activa forzar OCR para que el conversor vuelva a leer las imágenes de la página en lugar de fiarse del texto incrustado, lo que corrige caracteres ilegibles o ausentes.

¿Se conservan las tablas y fórmulas al convertir un escaneo?

Sí. Las columnas escaneadas se reconstruyen como tablas Markdown reales en vez de líneas desordenadas, y la notación matemática se conserva en lugar de degradarse. Consulta extraer tablas de PDF a Markdown para más información.

¿Por qué mi resultado está marcado como truncado?

El OCR es lento, así que un escaneo muy largo puede alcanzar el presupuesto de tiempo por documento. El conversor devuelve lo que procesó, marcado como resultado parcial (truncated). Un plan de pago tiene un presupuesto mayor, o puedes dividir el archivo.

¿Qué calidad de escaneo necesito para un buen OCR?

Apunta a páginas nítidas y rectas a unos 300 DPI o más con buen contraste. Los escaneos tenues, de baja resolución o inclinados aún se convierten, pero la precisión baja; volver a escanear más limpio es la solución más rápida.

¿Puede leer escritura a mano?

El OCR se enfoca en texto impreso, así que las notas manuscritas no se reconocen de forma fiable. Los documentos impresos y tipografiados, incluidos los escaneos, funcionan bien.

¿Es gratis y privado?

Sí. El plan gratuito ofrece 3 espacios, archivos de 10 MB, un presupuesto de tiempo de 15 minutos y retención de 1 hora: anónimo en el navegador, sin tarjeta. Los archivos se eliminan automáticamente tras la ventana de retención y nunca se usan para entrenar modelos.