Referenz

Glossar PDF zu Markdown

Kurze, klar formulierte Definitionen der Begriffe, die beim Konvertieren von PDFs in sauberes, LLM-fertiges Markdown auftauchen – von OCR und Lesereihenfolge über RAG und Chunking bis zu gehostetem MCP. Jeder Eintrag verlinkt auf den Guide, der tiefer geht.

Definitionen

Die Begriffe, von A bis Z

Chunking

Ein Dokument in kleinere Passagen aufteilen, damit ein Retrieval-System oder LLM sie indexieren und durchsuchen kann. Sauberes Markdown lässt sich viel besser chunken als roher PDF-Text, weil Überschriften und Tabellen erhalten bleiben. Siehe Markdown für RAG.

Konvertierungs-Engine

Die Komponente, die eine PDF liest und Markdown erzeugt. pdf2md.dev nutzt zwei Open-Source-Engines: Docling (schnell bei sauberen Dokumenten) und MinerU (robust bei dichten, komplexen Layouts). Siehe Tabellen zu Markdown.

Embeddings

Numerische Vektordarstellungen von Text, mit denen ein System Passagen nach Bedeutung statt nach exakten Wörtern findet. Sie treiben das Retrieval in einer RAG-Pipeline an; du embeddest die Markdown-Chunks eines Dokuments. Siehe Markdown für RAG.

Formeln (LaTeX / Mathematik)

Mathematische Notation in einem Dokument. Ein guter Konverter erhält Gleichungen, oft als LaTeX, statt sie zu unleserlichen Zeichen zu verflachen. Siehe Tabellen & Formeln.

Gehostetes MCP

MCP (Model Context Protocol) ist ein offener Standard, mit dem KI-Agenten externe Tools aufrufen können. Ein gehosteter MCP-Endpunkt stellt die Konvertierung von PDF zu Markdown als Tool bereit, das ein Agent direkt aufrufen kann, ohne lokales Setup. Siehe den Hub für Entwickler.

Markdown

Ein leichtgewichtiges Klartextformat, das Überschriften, Listen, Tabellen, Links und Code mit einfachen Symbolen auszeichnet. Es ist kompakt, gut diffbar und die bevorzugte Art, Dokumente an LLMs zu übergeben. Siehe PDF zu Markdown für KI.

OCR

Optische Zeichenerkennung: den Text in einem Bild oder einer gescannten Seite in echte, auswählbare Zeichen umwandeln. Genau das macht eine gescannte PDF in editierbares Markdown konvertierbar. Siehe gescannte PDF zu Markdown.

PDF zu Markdown

Eine PDF, deren Text nach Position statt als Struktur gespeichert ist, in sauberes Markdown mit echten Überschriften, Tabellen und Listen umwandeln. Das Ergebnis ist editierbar, durchsuchbar und LLM-fertig. Probier es aus.

RAG

Retrieval-Augmented Generation: ein Muster, bei dem ein LLM mit Passagen antwortet, die aus deinen eigenen Dokumenten abgerufen werden, statt nur aus seinen Trainingsdaten. PDFs in sauberes Markdown zu konvertieren ist der erste Schritt der meisten RAG-Pipelines. Siehe Markdown für RAG.

Lesereihenfolge

Die richtige Reihenfolge, in der der Text einer Seite gelesen werden soll, vor allem über mehrere Spalten hinweg. Eine PDF speichert sie nicht, also muss ein Konverter sie rekonstruieren, um verwürfelte Ausgaben zu vermeiden. Siehe Tabellen zu Markdown.

REST API

Eine Web-Schnittstelle, um den Konverter aus Code zu steuern: einen Job anlegen, seinen Status abfragen und dann das Markdown herunterladen. Damit konvertierst du PDFs programmatisch oder aus einem Agenten heraus. Siehe das Python-Tutorial.

Gescannte PDF

Eine PDF, deren Seiten Bilder sind, zum Beispiel fotografiertes oder gescanntes Papier, ohne darunterliegende Textebene. Sie braucht OCR, bevor ihr Inhalt zu Markdown werden kann. Siehe gescannte PDF zu Markdown.

Tabellen-Rekonstruktion

Die Zeilen und Spalten, die eine PDF nur visuell zeichnet, in eine echte Markdown-Tabelle zurückbauen, statt in einen Screenshot oder versetzte Linien. Siehe Tabellen zu Markdown.

Tokens

Die Einheiten, ungefähr Wortfragmente, die ein LLM für Kontextlimits und Preise zählt. Sauberes Markdown braucht weniger Tokens als unsauber extrahierter Text, sodass mehr von einem Dokument in einen Prompt passt. Siehe Markdown für RAG.

Vektordatenbank

Ein Speicher für Embeddings, der die in der Bedeutung ähnlichsten Passagen zu einer Anfrage abruft. Er hält die eingebetteten Markdown-Chunks, die ein RAG-System durchsucht. Siehe Markdown für RAG.

Von den Begriffen zur konvertierten Datei

Setz das Glossar in die Tat um: zieh eine PDF rein und bekomm sauberes Markdown mit OCR, echten Tabellen und Formeln – kostenlos, im Browser, oder über eine REST API und ein gehostetes MCP.