Gescannte und reine Bild-PDFs

Gescanntes PDF mit OCR zu Markdown konvertieren

Zieh ein reines Bild-PDF oder einen Scan rein und erhalte sauberes, markierbares Markdown. Das integrierte OCR funktioniert in vielen Sprachen, rekonstruiert echte Tabellen und behält Formeln – ohne Konto und ohne separaten OCR-Schritt.

Kurze Antwort

Ja – ein Scan wird zu markierbarem Markdown

Ein gescanntes PDF besteht nur aus Bildern von Seiten, also liefert einfaches Kopieren und Einfügen nichts oder verstümmelte Zeichen. PDF to Markdown erkennt reine Bildseiten und führt automatisch OCR (optische Zeichenerkennung) aus, wodurch die Textbilder in echtes, markierbares Markdown verwandelt werden – Überschriften, Listen, Tabellen und alles. Es funktioniert mit Dokumenten, die in vielen Sprachen gescannt wurden, auch bei Seiten mit mehreren Sprachen, und du kannst im Browser ohne Anmeldung konvertieren.

Anleitung

Konvertiere ein gescanntes PDF in 4 Schritten

Kein Konto nötig. OCR läuft automatisch, oder erzwinge es, wenn ein PDF eine fehlerhafte Textebene hat.

1

Öffne den Konverter

Installiere die Chrome-Erweiterung oder öffne die Web-App. Beide funktionieren anonym.

2

Füge das gescannte PDF hinzu

Zieh die Datei rein, wähle sie von der Festplatte oder füge eine direkte PDF-URL ein. OCR läuft automatisch auf reinen Bildseiten; aktiviere OCR erzwingen, wenn die vorhandene Textebene falsch ist.

3

Warte auf den Job

Der Status durchläuft in Warteschlange, in Bearbeitung, fertig. OCR ist aufwendiger als das Lesen von Digitaltext, also dauern Scans länger als native PDFs.

4

Kopiere oder lade herunter

Sieh dir das gerenderte Markdown und den Quelltext an, kopiere es dann in die Zwischenablage oder lade eine .md-Datei herunter.

Tipp: Du automatisierst Scans im großen Stil? Überspring die Oberfläche und ruf die REST API oder das gehostete MCP auf – dasselbe OCR, gesteuert aus deinem eigenen Code oder Agenten.

Was das OCR behält

Mehr als nur reiner Text

Zeichen zu erkennen ist der einfache Teil. Der Konverter rekonstruiert die Dokumentstruktur, die ein Scan verliert, damit das Markdown für Menschen und Modelle gleichermaßen nutzbar ist.

Viele Sprachen

Liest Scans in vielen Sprachen, auch Seiten mit mehreren Sprachen, in markierbaren Text.

Echte Tabellen

Gescannte Spalten werden zu echten Markdown-Tabellen statt zu einem Wirrwarr aus verschobenen Zeilen.

Formeln bleiben erhalten

Mathematische Notation bleibt erhalten, statt zu verstümmelten Zeichen zu degradieren.

OCR erzwingen

Überschreibe eine fehlerhafte oder unvollständige Textebene und lies die Seitenbilder neu, wenn der eingebettete Text falsch ist.

Links & Fußnoten

Wo vorhanden, werden Hyperlinks und Fußnoten als Markdown-Links übernommen, statt verworfen zu werden.

Engine-Auswahl

Konvertiere mit MinerU oder Docling, je nach Dokument und gewünschtem Ergebnis.

Gute Eingabe, gute Ausgabe

Was die OCR-Genauigkeit beeinflusst

OCR liest Bilder von Text, also gilt: Je sauberer der Scan, desto sauberer das Markdown. Ein paar Dinge machen den größten Unterschied.

Beste Ergebnisse

Scharfe, hochauflösende Seiten. Rund 300 DPI oder mehr, mit Text, der gestochen scharf statt verschwommen ist.
Gerade, entzerrte Scans. Seiten, die aufrecht stehen, nicht gedreht oder verzerrt.
Guter Kontrast. Dunkler Text auf hellem, gleichmäßigem Hintergrund, ohne starkes Durchscheinen.

Schwieriger für OCR

Blasse oder niedrig aufgelöste Scans. Kopien von Kopien oder kleine Screenshots verlieren das Detail, das OCR braucht.
Schräglage, Schatten und Unordnung. Handyfotos im Winkel, Seitenwölbung oder unruhige Hintergründe verringern die Genauigkeit.
Handschrift. Die Engines sind auf gedruckten Text ausgelegt; handschriftliche Notizen werden nicht zuverlässig erkannt.

Was du konvertieren kannst: jedes PDF bis zum Größenlimit, einschließlich reiner Bild-Dokumente, gemischter digitaler und gescannter Dokumente, mehrspaltiger Layouts und Tabellen. Die Ausgabe ist eine einzelne Markdown-Datei oder der rohe Markdown-Text über die API.

Fehlerbehebung

Häufige Probleme und schnelle Lösungen

Verstümmelter oder falscher Text

Das PDF hat eine fehlerhafte eingebettete Textebene. Aktiviere OCR erzwingen, damit der Konverter die Seitenbilder neu liest, statt dieser Ebene zu vertrauen.

Nichts erkannt

Meist ein sehr blasser oder gedrehter Scan. Scanne gerade und mit höherer Auflösung neu, oder verbessere den Kontrast, und konvertiere erneut.

Ergebnis als abgeschnitten markiert

Ein langer Scan hat das Zeitbudget erreicht und wurde teilweise zurückgegeben. Teile das Dokument in kleinere Dateien auf oder nutze einen kostenpflichtigen Tarif mit größerem Budget.

Unordentliche Tabellen

Probier die andere Engine: MinerU ist robust bei Scans und komplexen Layouts, während Docling auf sauberen, einfachen Seiten schnell ist.

Eine erkannte Tabelle kommt als echtes Markdown zurück, bereit zum Einfügen oder Indizieren:

| Quartal | Umsatz  | Wachstum |
| ------- | ------- | -------- |
| Q1      | 1,2 M $ | +8 %     |
| Q2      | 1,4 M $ | +17 %    |
Was dich erwartet

Limits des Gratis-Tarifs & lange Scans

Limits des Gratis-Tarifs

Aktive Slots (Warteschlangentiefe)3
Maximale PDF-Größe10 MB
Zeitbudget pro Dokument15 Min.
Aufbewahrung des fertigen Ergebnisses1 Stunde

Kostenpflichtige Tarife heben jedes Limit an und bieten ein größeres Zeitbudget für aufwendige Scans. Tarife vergleichen →

Lange oder qualitativ schlechte Scans

Teilergebnisse werden markiert. Wenn ein langer Scan das Zeitbudget erreicht, bekommst du das Verarbeitete, markiert als truncated, statt eines Fehlers. Teile die Datei auf oder nutze ein größeres kostenpflichtiges Budget.
Lesbarkeit zählt. Die OCR-Genauigkeit folgt dem Scan: Eine saubere, gerade, einigermaßen hochauflösende Seite liest sich weit besser als eine blasse oder schiefe.
Standardmäßig privat. Dateien werden nach dem Aufbewahrungsfenster automatisch gelöscht und nie für Werbung oder zum Training von Modellen verwendet.

Scans im großen Stil konvertieren?

Dieselbe OCR-Pipeline ist eine REST API und ein gehostetes MCP-Endpunkt, mit maschinenlesbarer Discovery, damit Skripte und Agenten sie direkt steuern können.

FAQ

Häufige Fragen

Kann es ein gescanntes PDF zu Markdown konvertieren?

Ja. Reine Bild-PDFs und gescannte PDFs werden automatisch per OCR in markierbares Markdown verwandelt – ohne separaten OCR-Schritt und ohne Einrichtung. Zieh die Datei einfach in die Erweiterung oder die Web-App.

Beherrscht das OCR andere Sprachen?

Ja. Es funktioniert in vielen Sprachen, auch bei Dokumenten mit mehreren Sprachen, und wandelt den erkannten Text in Markdown um.

Das PDF hat eine fehlerhafte Textebene – kann ich OCR erzwingen?

Ja. Aktiviere OCR erzwingen, damit der Konverter die Seitenbilder neu liest, statt dem eingebetteten Text zu vertrauen. Das behebt unleserliche oder fehlende Zeichen.

Bleiben Tabellen und Formeln beim Konvertieren eines Scans erhalten?

Ja. Gescannte Spalten werden als echte Markdown-Tabellen rekonstruiert statt als wirre Zeilen, und mathematische Notation bleibt erhalten, statt verstümmelt zu werden. Siehe Tabellen aus PDF zu Markdown extrahieren für mehr.

Warum ist mein Ergebnis als abgeschnitten markiert?

OCR ist langsam, also kann ein sehr langer Scan das Zeitbudget pro Dokument erreichen. Der Konverter gibt zurück, was er verarbeitet hat, markiert als Teilergebnis (truncated). Ein kostenpflichtiger Tarif hat ein größeres Budget, oder du teilst die Datei auf.

Welche Scan-Qualität brauche ich für gutes OCR?

Ziele auf scharfe, gerade Seiten mit etwa 300 DPI oder mehr und gutem Kontrast. Blasse, niedrig aufgelöste oder schiefe Scans lassen sich noch konvertieren, aber die Genauigkeit sinkt; ein saubereres erneutes Scannen ist die schnellste Lösung.

Kann es Handschrift lesen?

Das OCR ist auf gedruckten Text ausgelegt, daher werden handschriftliche Notizen nicht zuverlässig erkannt. Gedruckte und gesetzte Dokumente, auch Scans, funktionieren gut.

Ist es gratis und privat?

Ja. Der Gratis-Tarif bietet 3 Slots, Dateien bis 10 MB, ein Zeitbudget von 15 Minuten und 1 Stunde Aufbewahrung – anonym im Browser, ohne Karte. Dateien werden nach dem Aufbewahrungsfenster automatisch gelöscht und nie zum Training von Modellen verwendet.