Convertir PDF escaneado a Markdown con OCR
Suelta un PDF de solo imagen o escaneado y obtén Markdown limpio y seleccionable. El OCR integrado funciona en muchos idiomas, reconstruye tablas reales y conserva fórmulas, sin cuenta y sin un paso de OCR aparte.
Sí: un escaneo se convierte en Markdown seleccionable
Un PDF escaneado son solo imágenes de páginas, así que copiar y pegar no devuelve nada o caracteres ilegibles. PDF to Markdown detecta las páginas de solo imagen y ejecuta OCR (reconocimiento óptico de caracteres) automáticamente, convirtiendo las imágenes de texto en Markdown real y seleccionable: encabezados, listas, tablas y todo. Funciona con documentos escaneados en muchos idiomas, incluidas páginas con varios idiomas, y puedes convertir en el navegador sin registrarte.
Convierte un PDF escaneado en 4 pasos
Sin cuenta. El OCR se ejecuta automáticamente, o fuérzalo cuando un PDF tiene una capa de texto defectuosa.
Abre el conversor
Instala la extensión de Chrome o abre la app web. Ambas funcionan de forma anónima.
Añade el PDF escaneado
Arrastra el archivo, elígelo del disco o pega una URL directa de PDF. El OCR se ejecuta automáticamente en las páginas de solo imagen; activa forzar OCR cuando la capa de texto existente es incorrecta.
Espera el trabajo
El estado pasa por en cola, procesando, listo. El OCR es más pesado que leer texto digital, así que los escaneos tardan más que los PDF nativos.
Copia o descarga
Previsualiza el Markdown renderizado y el código fuente, luego cópialo al portapapeles o descarga un archivo .md.
Consejo: ¿automatizas escaneos en masa? Sáltate la interfaz y llama a la API REST o el MCP alojado: el mismo OCR, desde tu propio código o agente.
Más que solo texto plano
Reconocer caracteres es la parte fácil. El conversor reconstruye la estructura del documento que un escaneo pierde, así el Markdown es útil tanto para personas como para modelos.
Muchos idiomas
Lee escaneos en muchos idiomas, incluidas páginas con varios idiomas, y los convierte en texto seleccionable.
Tablas reales
Las columnas escaneadas se convierten en tablas Markdown auténticas en vez de un amasijo de líneas desalineadas.
Fórmulas conservadas
La notación matemática se conserva en lugar de degradarse a caracteres ilegibles.
Forzar OCR
Anula una capa de texto defectuosa o parcial y vuelve a leer las imágenes de la página cuando el texto incrustado es incorrecto.
Enlaces y notas al pie
Cuando existen, los hipervínculos y las notas al pie se conservan como enlaces Markdown en vez de descartarse.
Elección de motor
Convierte con MinerU o Docling, según el documento y el resultado que quieras.
Qué afecta a la precisión del OCR
El OCR lee imágenes de texto, así que cuanto más limpio el escaneo, más limpio el Markdown. Unas pocas cosas marcan la mayor diferencia.
Mejores resultados
Más difícil para el OCR
Qué puedes convertir: cualquier PDF hasta el límite de tamaño, incluidos documentos de solo imagen, mixtos (digital y escaneado), diseños multicolumna y tablas. La salida es un único archivo Markdown, o el texto Markdown en bruto a través de la API.
Problemas habituales y soluciones rápidas
Texto ilegible o incorrecto
El PDF tiene una capa de texto incrustada defectuosa. Activa forzar OCR para que el conversor vuelva a leer las imágenes de la página en vez de fiarse de esa capa.
No se reconoce nada
Normalmente un escaneo muy tenue o girado. Vuelve a escanear recto a mayor resolución, o mejora el contraste, y convierte de nuevo.
Resultado marcado como truncado
Un escaneo largo alcanzó el presupuesto de tiempo y se devolvió parcialmente. Divide el documento en archivos más pequeños, o usa un plan de pago con un presupuesto mayor.
Tablas desordenadas
Prueba el otro motor: MinerU es robusto con escaneos y diseños complejos, mientras que Docling es rápido con páginas limpias y sencillas.
Una tabla reconocida vuelve como Markdown real, lista para pegar o indexar:
| Trimestre | Ingresos | Crecimiento | | --------- | -------- | ----------- | | T1 | 1,2 M $ | +8 % | | T2 | 1,4 M $ | +17 % |
Límites del plan gratuito y escaneos largos
Límites del plan gratuito
Los planes de pago amplían cada límite y añaden un presupuesto de tiempo mayor para escaneos pesados. Comparar planes →
Escaneos largos o de baja calidad
truncated, en vez de un error. Divide el archivo o usa un presupuesto de pago mayor.¿Conviertes escaneos a escala?
El mismo pipeline de OCR es una API REST y un endpoint MCP alojado, con descubrimiento legible por máquina para que scripts y agentes lo controlen directamente.
Preguntas habituales
¿Puede convertir un PDF escaneado a Markdown?
Sí. Los PDF de solo imagen y escaneados se procesan con OCR automáticamente y se convierten en Markdown seleccionable: sin un paso de OCR aparte y sin configuración. Solo suelta el archivo en la extensión o la app web.
¿El OCR maneja otros idiomas?
Sí. Funciona en muchos idiomas, incluidos documentos con varios idiomas, y convierte el texto reconocido en Markdown.
El PDF tiene una capa de texto defectuosa, ¿puedo forzar el OCR?
Sí. Activa forzar OCR para que el conversor vuelva a leer las imágenes de la página en lugar de fiarse del texto incrustado, lo que corrige caracteres ilegibles o ausentes.
¿Se conservan las tablas y fórmulas al convertir un escaneo?
Sí. Las columnas escaneadas se reconstruyen como tablas Markdown reales en vez de líneas desordenadas, y la notación matemática se conserva en lugar de degradarse. Consulta extraer tablas de PDF a Markdown para más información.
¿Por qué mi resultado está marcado como truncado?
El OCR es lento, así que un escaneo muy largo puede alcanzar el presupuesto de tiempo por documento. El conversor devuelve lo que procesó, marcado como resultado parcial (truncated). Un plan de pago tiene un presupuesto mayor, o puedes dividir el archivo.
¿Qué calidad de escaneo necesito para un buen OCR?
Apunta a páginas nítidas y rectas a unos 300 DPI o más con buen contraste. Los escaneos tenues, de baja resolución o inclinados aún se convierten, pero la precisión baja; volver a escanear más limpio es la solución más rápida.
¿Puede leer escritura a mano?
El OCR se enfoca en texto impreso, así que las notas manuscritas no se reconocen de forma fiable. Los documentos impresos y tipografiados, incluidos los escaneos, funcionan bien.
¿Es gratis y privado?
Sí. El plan gratuito ofrece 3 espacios, archivos de 10 MB, un presupuesto de tiempo de 15 minutos y retención de 1 hora: anónimo en el navegador, sin tarjeta. Los archivos se eliminan automáticamente tras la ventana de retención y nunca se usan para entrenar modelos.