Gescanntes PDF mit OCR zu Markdown konvertieren
Zieh ein reines Bild-PDF oder einen Scan rein und erhalte sauberes, markierbares Markdown. Das integrierte OCR funktioniert in vielen Sprachen, rekonstruiert echte Tabellen und behält Formeln – ohne Konto und ohne separaten OCR-Schritt.
Ja – ein Scan wird zu markierbarem Markdown
Ein gescanntes PDF besteht nur aus Bildern von Seiten, also liefert einfaches Kopieren und Einfügen nichts oder verstümmelte Zeichen. PDF to Markdown erkennt reine Bildseiten und führt automatisch OCR (optische Zeichenerkennung) aus, wodurch die Textbilder in echtes, markierbares Markdown verwandelt werden – Überschriften, Listen, Tabellen und alles. Es funktioniert mit Dokumenten, die in vielen Sprachen gescannt wurden, auch bei Seiten mit mehreren Sprachen, und du kannst im Browser ohne Anmeldung konvertieren.
Konvertiere ein gescanntes PDF in 4 Schritten
Kein Konto nötig. OCR läuft automatisch, oder erzwinge es, wenn ein PDF eine fehlerhafte Textebene hat.
Öffne den Konverter
Installiere die Chrome-Erweiterung oder öffne die Web-App. Beide funktionieren anonym.
Füge das gescannte PDF hinzu
Zieh die Datei rein, wähle sie von der Festplatte oder füge eine direkte PDF-URL ein. OCR läuft automatisch auf reinen Bildseiten; aktiviere OCR erzwingen, wenn die vorhandene Textebene falsch ist.
Warte auf den Job
Der Status durchläuft in Warteschlange, in Bearbeitung, fertig. OCR ist aufwendiger als das Lesen von Digitaltext, also dauern Scans länger als native PDFs.
Kopiere oder lade herunter
Sieh dir das gerenderte Markdown und den Quelltext an, kopiere es dann in die Zwischenablage oder lade eine .md-Datei herunter.
Tipp: Du automatisierst Scans im großen Stil? Überspring die Oberfläche und ruf die REST API oder das gehostete MCP auf – dasselbe OCR, gesteuert aus deinem eigenen Code oder Agenten.
Mehr als nur reiner Text
Zeichen zu erkennen ist der einfache Teil. Der Konverter rekonstruiert die Dokumentstruktur, die ein Scan verliert, damit das Markdown für Menschen und Modelle gleichermaßen nutzbar ist.
Viele Sprachen
Liest Scans in vielen Sprachen, auch Seiten mit mehreren Sprachen, in markierbaren Text.
Echte Tabellen
Gescannte Spalten werden zu echten Markdown-Tabellen statt zu einem Wirrwarr aus verschobenen Zeilen.
Formeln bleiben erhalten
Mathematische Notation bleibt erhalten, statt zu verstümmelten Zeichen zu degradieren.
OCR erzwingen
Überschreibe eine fehlerhafte oder unvollständige Textebene und lies die Seitenbilder neu, wenn der eingebettete Text falsch ist.
Links & Fußnoten
Wo vorhanden, werden Hyperlinks und Fußnoten als Markdown-Links übernommen, statt verworfen zu werden.
Engine-Auswahl
Konvertiere mit MinerU oder Docling, je nach Dokument und gewünschtem Ergebnis.
Was die OCR-Genauigkeit beeinflusst
OCR liest Bilder von Text, also gilt: Je sauberer der Scan, desto sauberer das Markdown. Ein paar Dinge machen den größten Unterschied.
Beste Ergebnisse
Schwieriger für OCR
Was du konvertieren kannst: jedes PDF bis zum Größenlimit, einschließlich reiner Bild-Dokumente, gemischter digitaler und gescannter Dokumente, mehrspaltiger Layouts und Tabellen. Die Ausgabe ist eine einzelne Markdown-Datei oder der rohe Markdown-Text über die API.
Häufige Probleme und schnelle Lösungen
Verstümmelter oder falscher Text
Das PDF hat eine fehlerhafte eingebettete Textebene. Aktiviere OCR erzwingen, damit der Konverter die Seitenbilder neu liest, statt dieser Ebene zu vertrauen.
Nichts erkannt
Meist ein sehr blasser oder gedrehter Scan. Scanne gerade und mit höherer Auflösung neu, oder verbessere den Kontrast, und konvertiere erneut.
Ergebnis als abgeschnitten markiert
Ein langer Scan hat das Zeitbudget erreicht und wurde teilweise zurückgegeben. Teile das Dokument in kleinere Dateien auf oder nutze einen kostenpflichtigen Tarif mit größerem Budget.
Unordentliche Tabellen
Probier die andere Engine: MinerU ist robust bei Scans und komplexen Layouts, während Docling auf sauberen, einfachen Seiten schnell ist.
Eine erkannte Tabelle kommt als echtes Markdown zurück, bereit zum Einfügen oder Indizieren:
| Quartal | Umsatz | Wachstum | | ------- | ------- | -------- | | Q1 | 1,2 M $ | +8 % | | Q2 | 1,4 M $ | +17 % |
Limits des Gratis-Tarifs & lange Scans
Limits des Gratis-Tarifs
Kostenpflichtige Tarife heben jedes Limit an und bieten ein größeres Zeitbudget für aufwendige Scans. Tarife vergleichen →
Lange oder qualitativ schlechte Scans
truncated, statt eines Fehlers. Teile die Datei auf oder nutze ein größeres kostenpflichtiges Budget.Scans im großen Stil konvertieren?
Dieselbe OCR-Pipeline ist eine REST API und ein gehostetes MCP-Endpunkt, mit maschinenlesbarer Discovery, damit Skripte und Agenten sie direkt steuern können.
Häufige Fragen
Kann es ein gescanntes PDF zu Markdown konvertieren?
Ja. Reine Bild-PDFs und gescannte PDFs werden automatisch per OCR in markierbares Markdown verwandelt – ohne separaten OCR-Schritt und ohne Einrichtung. Zieh die Datei einfach in die Erweiterung oder die Web-App.
Beherrscht das OCR andere Sprachen?
Ja. Es funktioniert in vielen Sprachen, auch bei Dokumenten mit mehreren Sprachen, und wandelt den erkannten Text in Markdown um.
Das PDF hat eine fehlerhafte Textebene – kann ich OCR erzwingen?
Ja. Aktiviere OCR erzwingen, damit der Konverter die Seitenbilder neu liest, statt dem eingebetteten Text zu vertrauen. Das behebt unleserliche oder fehlende Zeichen.
Bleiben Tabellen und Formeln beim Konvertieren eines Scans erhalten?
Ja. Gescannte Spalten werden als echte Markdown-Tabellen rekonstruiert statt als wirre Zeilen, und mathematische Notation bleibt erhalten, statt verstümmelt zu werden. Siehe Tabellen aus PDF zu Markdown extrahieren für mehr.
Warum ist mein Ergebnis als abgeschnitten markiert?
OCR ist langsam, also kann ein sehr langer Scan das Zeitbudget pro Dokument erreichen. Der Konverter gibt zurück, was er verarbeitet hat, markiert als Teilergebnis (truncated). Ein kostenpflichtiger Tarif hat ein größeres Budget, oder du teilst die Datei auf.
Welche Scan-Qualität brauche ich für gutes OCR?
Ziele auf scharfe, gerade Seiten mit etwa 300 DPI oder mehr und gutem Kontrast. Blasse, niedrig aufgelöste oder schiefe Scans lassen sich noch konvertieren, aber die Genauigkeit sinkt; ein saubereres erneutes Scannen ist die schnellste Lösung.
Kann es Handschrift lesen?
Das OCR ist auf gedruckten Text ausgelegt, daher werden handschriftliche Notizen nicht zuverlässig erkannt. Gedruckte und gesetzte Dokumente, auch Scans, funktionieren gut.
Ist es gratis und privat?
Ja. Der Gratis-Tarif bietet 3 Slots, Dateien bis 10 MB, ein Zeitbudget von 15 Minuten und 1 Stunde Aufbewahrung – anonym im Browser, ohne Karte. Dateien werden nach dem Aufbewahrungsfenster automatisch gelöscht und nie zum Training von Modellen verwendet.