Convertir un PDF numérisé en Markdown avec OCR

Q: Pourquoi mon résultat est-il marqué comme tronqué ?

L'OCR est lent, donc un document numérisé très long peut atteindre le budget de temps par document. Le convertisseur renvoie ce qu'il a traité, marqué comme résultat partiel (truncated). Une offre payante dispose d'un budget plus élevé, ou vous pouvez diviser le fichier.

Réponse courte

Oui : une numérisation devient du Markdown sélectionnable

Un PDF numérisé n'est qu'une suite d'images de pages, donc un simple copier-coller ne renvoie rien ou des caractères illisibles. PDF to Markdown détecte les pages en image seule et exécute l'OCR (reconnaissance optique de caractères) automatiquement, transformant les images de texte en véritable Markdown sélectionnable : titres, listes, tableaux et tout le reste. Cela fonctionne avec des documents numérisés dans de nombreuses langues, y compris des pages multilingues, et vous pouvez convertir dans le navigateur sans vous inscrire.

Comment faire

Convertir un PDF numérisé en 4 étapes

Sans compte. L'OCR s'exécute automatiquement, ou forcez-le lorsqu'un PDF a une couche de texte défectueuse.

1

Ouvrez le convertisseur

Installez l'extension Chrome ou ouvrez l'application web. Les deux fonctionnent de manière anonyme.

2

Ajoutez le PDF numérisé

Glissez le fichier, choisissez-le sur le disque ou collez une URL directe de PDF. L'OCR s'exécute automatiquement sur les pages en image seule ; activez l'OCR forcé lorsque la couche de texte existante est incorrecte.

3

Attendez la tâche

Le statut passe par en file d'attente, en cours, prêt. L'OCR est plus lourd que la lecture de texte numérique, donc les numérisations prennent plus de temps que les PDF natifs.

4

Copiez ou téléchargez

Prévisualisez le Markdown rendu et le code source, puis copiez-le dans le presse-papiers ou téléchargez un fichier .md.

Astuce : vous automatisez des numérisations en masse ? Évitez l'interface et appelez l'API REST ou le MCP hébergé : le même OCR, piloté depuis votre propre code ou agent.

Ce que l'OCR conserve

Bien plus que du texte brut

Reconnaître les caractères est la partie facile. Le convertisseur reconstruit la structure du document qu'une numérisation perd, afin que le Markdown soit utilisable aussi bien par les personnes que par les modèles.

De nombreuses langues

Lit des numérisations dans de nombreuses langues, y compris des pages multilingues, et les convertit en texte sélectionnable.

De vrais tableaux

Les colonnes numérisées deviennent de véritables tableaux Markdown au lieu d'un fouillis de lignes mal alignées.

Formules conservées

La notation mathématique est conservée au lieu d'être dégradée en caractères illisibles.

OCR forcé

Remplacez une couche de texte défectueuse ou partielle et relisez les images de la page lorsque le texte intégré est incorrect.

Liens et notes de bas de page

Lorsqu'ils existent, les hyperliens et les notes de bas de page sont conservés comme des liens Markdown au lieu d'être supprimés.

Choix du moteur

Convertissez avec MinerU ou Docling, selon le document et le résultat souhaité.

Qualité en entrée, qualité en sortie

Ce qui influe sur la précision de l'OCR

L'OCR lit des images de texte, donc plus la numérisation est propre, plus le Markdown est propre. Quelques éléments font la plus grande différence.

Meilleurs résultats

Pages nettes et en haute résolution. Environ 300 DPI ou plus, avec un texte net plutôt que flou.

Numérisations droites et redressées. Des pages verticales, ni tournées ni déformées.

Bon contraste. Texte sombre sur un fond clair et uniforme, sans transparence excessive du verso.

Plus difficile pour l'OCR

Numérisations pâles ou en basse résolution. Les copies de copies, ou les petites captures d'écran, perdent le détail dont l'OCR a besoin.

Inclinaison, ombres et désordre. Les photos de téléphone prises de biais, les pages gondolées ou les fonds chargés réduisent la précision.

Écriture manuscrite. Les moteurs ciblent le texte imprimé ; les notes manuscrites ne sont pas reconnues de manière fiable.

Ce que vous pouvez convertir : n'importe quel PDF jusqu'à la limite de taille, y compris les documents en image seule, mixtes (numérique et numérisé), les mises en page multicolonnes et les tableaux. La sortie est un unique fichier Markdown, ou le texte Markdown brut via l'API.

Dépannage

Problèmes courants et solutions rapides

Texte illisible ou incorrect

Le PDF a une couche de texte intégrée défectueuse. Activez l'OCR forcé pour que le convertisseur relise les images de la page au lieu de se fier à cette couche.

Rien n'est reconnu

Généralement une numérisation très pâle ou tournée. Renumérisez droit à une résolution plus élevée, ou améliorez le contraste, puis convertissez de nouveau.

Résultat marqué comme tronqué

Une longue numérisation a atteint le budget de temps et a été renvoyée partiellement. Divisez le document en fichiers plus petits, ou utilisez une offre payante avec un budget plus élevé.

Tableaux désordonnés

Essayez l'autre moteur : MinerU est robuste sur les numérisations et les mises en page complexes, tandis que Docling est rapide sur les pages propres et simples.

Un tableau reconnu revient sous forme de Markdown réel, prêt à coller ou à indexer :

| Trimestre | Revenus | Croissance |
| --------- | ------- | ---------- |
| T1        | 1,2 M $ | +8 %       |
| T2        | 1,4 M $ | +17 %      |

À quoi s'attendre

Limites de l'offre gratuite et longues numérisations

Limites de l'offre gratuite

Emplacements actifs (profondeur de file)3

Taille de PDF maximale10 Mo

Budget de temps par document15 min

Conservation du résultat prêt1 heure

Les offres payantes augmentent chaque limite et ajoutent un budget de temps plus élevé pour les numérisations lourdes. Comparer les offres →

Numérisations longues ou de mauvaise qualité

Les résultats partiels sont signalés. Si une longue numérisation atteint le budget de temps, vous obtenez ce qui a été traité, marqué truncated, au lieu d'une erreur. Divisez le fichier ou utilisez un budget payant plus élevé.

La lisibilité compte. La précision de l'OCR suit la numérisation : une page propre, droite et de résolution raisonnable se lit bien mieux qu'une page pâle ou inclinée.

Privé par défaut. Les fichiers sont supprimés automatiquement après la fenêtre de conservation et ne sont jamais utilisés à des fins publicitaires ni pour entraîner des modèles.

Vous convertissez des numérisations à grande échelle ?

Le même pipeline OCR est une API REST et un endpoint MCP hébergé, avec une découverte lisible par machine pour que les scripts et les agents le pilotent directement.

Hub développeur OpenAPI Pour l'IA et les LLM

FAQ

Questions fréquentes

Peut-il convertir un PDF numérisé en Markdown ?

Oui. Les PDF en image seule et numérisés sont traités par OCR automatiquement et convertis en Markdown sélectionnable : sans étape d'OCR distincte et sans configuration. Déposez simplement le fichier dans l'extension ou l'application web.

L'OCR gère-t-il d'autres langues ?

Oui. Il fonctionne dans de nombreuses langues, y compris les documents multilingues, et convertit le texte reconnu en Markdown.

Le PDF a une couche de texte défectueuse, puis-je forcer l'OCR ?

Oui. Activez l'OCR forcé pour que le convertisseur relise les images de la page au lieu de se fier au texte intégré, ce qui corrige les caractères illisibles ou manquants.

Les tableaux et les formules sont-ils conservés lors de la conversion d'un document numérisé ?

Oui. Les colonnes numérisées sont reconstruites en véritables tableaux Markdown au lieu de lignes désordonnées, et la notation mathématique est conservée au lieu d'être dégradée. Consultez extraire des tableaux d'un PDF vers Markdown pour en savoir plus.

Pourquoi mon résultat est-il marqué comme tronqué ?

L'OCR est lent, donc une numérisation très longue peut atteindre le budget de temps par document. Le convertisseur renvoie ce qu'il a traité, marqué comme résultat partiel (truncated). Une offre payante dispose d'un budget plus élevé, ou vous pouvez diviser le fichier.

Quelle qualité de numérisation faut-il pour un bon OCR ?

Visez des pages nettes et droites à environ 300 DPI ou plus avec un bon contraste. Les numérisations pâles, en basse résolution ou inclinées se convertissent quand même, mais la précision baisse ; renumériser plus proprement est la solution la plus rapide.

Peut-il lire l'écriture manuscrite ?

L'OCR cible le texte imprimé, donc les notes manuscrites ne sont pas reconnues de manière fiable. Les documents imprimés et composés, y compris les numérisations, fonctionnent bien.

Est-ce gratuit et privé ?

Oui. L'offre gratuite donne 3 emplacements, des fichiers de 10 Mo, un budget de temps de 15 minutes et une conservation d'1 heure : anonyme dans le navigateur, sans carte. Les fichiers sont supprimés automatiquement après la fenêtre de conservation et ne sont jamais utilisés pour entraîner des modèles.