Référence

Glossaire PDF vers Markdown

Des définitions courtes et en langage clair des termes qui apparaissent lorsque vous convertissez des PDF en Markdown propre et prêt pour les LLM : de l'OCR et de l'ordre de lecture au RAG, au chunking et au MCP hébergé. Chacun renvoie au guide qui approfondit le sujet.

Définitions

Les termes, de A à Z

Chunking

Diviser un document en passages plus petits pour qu'un système de recherche ou un LLM puisse les indexer et les interroger. Le Markdown propre se fragmente bien mieux que le texte brut d'un PDF, car les titres et les tableaux restent intacts. Voir Markdown pour le RAG.

Moteur de conversion

Le composant qui lit un PDF et produit du Markdown. pdf2md.dev exécute deux moteurs open source : Docling (rapide sur les documents propres) et MinerU (robuste sur les mises en page denses et complexes). Voir tableaux vers Markdown.

Embeddings

Représentations numériques sous forme de vecteur du texte qui permettent à un système de trouver des passages par sens plutôt que par mots exacts. Ils alimentent la recherche dans un pipeline RAG ; vous calculez les embeddings des fragments Markdown d'un document. Voir Markdown pour le RAG.

Formules (LaTeX / mathématiques)

Notation mathématique dans un document. Un bon convertisseur conserve les équations, souvent en LaTeX, au lieu de les aplatir en caractères illisibles. Voir tableaux et formules.

MCP hébergé

MCP (Model Context Protocol) est un standard ouvert qui permet aux agents IA d'appeler des outils externes. Un endpoint MCP hébergé expose la conversion PDF vers Markdown comme un outil qu'un agent peut appeler directement, sans configuration locale. Voir le hub développeurs.

Markdown

Un format de texte brut léger qui balise les titres, les listes, les tableaux, les liens et le code avec des symboles simples. Il est compact, comparable par diff et la façon privilégiée de fournir des documents aux LLM. Voir PDF vers Markdown pour l'IA.

OCR

Reconnaissance optique de caractères : transformer le texte contenu dans une image ou une page numérisée en caractères réels et sélectionnables. C'est ce qui rend un PDF numérisé convertible en Markdown modifiable. Voir PDF numérisé vers Markdown.

PDF vers Markdown

Convertir un PDF, dont le texte est stocké par position plutôt que comme structure, en Markdown propre avec de vrais titres, tableaux et listes. Le résultat est modifiable, indexable et prêt pour les LLM. Essayez-le.

RAG

Génération augmentée par la recherche : un schéma dans lequel un LLM répond à l'aide de passages extraits de vos propres documents plutôt que de ses seules données d'entraînement. Convertir des PDF en Markdown propre est la première étape de la plupart des pipelines RAG. Voir Markdown pour le RAG.

Ordre de lecture

La séquence correcte dans laquelle le texte d'une page doit être lu, surtout sur plusieurs colonnes. Un PDF ne la conserve pas, donc un convertisseur doit la reconstituer pour éviter une sortie désordonnée. Voir tableaux vers Markdown.

API REST

Une interface web pour piloter le convertisseur depuis du code : créer une tâche, interroger son statut, puis télécharger le Markdown. Elle permet de convertir des PDF par programmation ou depuis un agent. Voir le tutoriel Python.

PDF numérisé

Un PDF dont les pages sont des images, par exemple du papier photographié ou numérisé, sans couche de texte sous-jacente. Il a besoin de l'OCR avant que son contenu puisse devenir du Markdown. Voir PDF numérisé vers Markdown.

Reconstruction des tableaux

Reconstruire les lignes et les colonnes qu'un PDF ne fait que dessiner visuellement en un véritable tableau Markdown, au lieu d'une capture d'écran ou de lignes mal alignées. Voir tableaux vers Markdown.

Tokens

Les unités, approximativement des fragments de mot, qu'un LLM compte pour les limites de contexte et la tarification. Le Markdown propre utilise moins de tokens que le texte extrait désordonné, donc une plus grande partie d'un document tient dans un prompt. Voir Markdown pour le RAG.

Base de données vectorielle

Un magasin d'embeddings qui récupère les passages les plus proches en sens d'une requête. Il conserve les fragments Markdown vectorisés qu'un système RAG interroge. Voir Markdown pour le RAG.

Des termes à un fichier converti

Mettez le glossaire au travail : déposez un PDF et obtenez du Markdown propre avec OCR, vrais tableaux et formules, gratuitement, dans le navigateur, ou depuis une API REST et un MCP hébergé.