PDF: OCR nutzen und Text bearbeiten

Marco Kratzenberg

Wer ein PDF bearbeiten möchte, kann problemlos Kommentare einfügen. Aber geht es um die Bearbeitung im Layout, dann muss ein PDF mit OCR eingelesen werden, um nach der Texterkennung weiter bearbeitet zu werden. Wir nennen euch Tools, mit denen das geht.

Themen:

Wurde ein PDF in einem Textprogramm wie Microsoft Word erstellt, dann ist es leicht, diese Texte auch wieder auszulesen. Schwer wird es, wenn die Quelle des PDF ein eingescanntes Bild ist. Hier gibt es in der Datei eigentlich keinen Text, den man bearbeiten kann. In diesem Fall müsst ihr das PDF mit OCR (Texterkennung) behandeln, um zur Weiterbearbeitung an den Text zu kommen. Selbst dann ist aber nicht gewährleistet, dass ihr vorhandene Grafiken und das Layout des PDF nutzen könnt.

Wenn es euch nur um die Konvertierung einer PDF-Datei ins Word-Format geht, hilft euch dieses Tool:

80.174
Free PDF to Word Doc Converter

Text aus PDFs mit OCR exportieren

Es gibt kostenlose OCR-Programme wie FreeOCR, mit denen ihr ein PDF laden und dann mittels OCR den Text erkennen könnt. Das Ergebnis ist allerdings „roher, nackter Text”. Es gibt kein Layout und eventuell eingebundene Grafiken werden auch nicht berücksichtigt.

OCR heißt eben nur Texterkennung und nicht mehr. Geht es allerdings nur um den Text, dann ist diese Freeware genau das richtige Programm für euch. Es bringt mehrere verschiedene Sprachen mit, damit ihr keine Probleme mit Sonderzeichen bekommt. Die Ergebnisse sind nicht perfekt, aber brauchbar. Auf Knopfdruck lässt euch das Tool den eingelesenen Text als Word- oder RTF-Datei exportieren oder in die Zwischenablage kopieren, so dass ihr ihn weiterbearbeiten könnt.

So könnt ihr mit FreeOCR aus einem PDF mit OCR den Text exportieren:

  1. Startet das Programm FreeOCR.
  2. Falls noch nicht geschehen, stellt rechts oben die „OCR Language“ auf „deu“ für die richtige Erkennung deutscher Sprache.
  3. Klickt auf das Icon „Open PDF“.
  4. Ladet eine PDF-Datei.
  5. Klickt auf das Icon „OCR“. Ihr könnt nun auswählen, ob nur die aktuell sichtbare Seite (Current Page) oder alle Seiten des Dokuments (All Pages) erkannt werden sollen.
  6. Nach der Texterkennung seht ihr im rechten Fenster, den Text, den das Programm aus eurem PDF herausgeholt hat.

Ihr könnt das Ergebnis mit dem Disketten-Icon speichern. Das Icon mit den beiden Seiten kopiert das Ergebnis in die Zwischenablage. Dann gibt's noch ein Icon für Word oder RTF, das jeweils den Text in eine Datei dieser Formate speichert.

20 kostenlose Officeprogramme für Windows

PDF mit OCR einlesen und sofort bearbeiten

Meistens, wenn jemand ein PDF bearbeiten will, dann möchte er in der bestehenden PDF-Datei selbst arbeiten. Er möchte Text einfügen oder löschen und evtl. auch Grafiken verschieben. Das ist noch vergleichsweise einfach, wenn das Quelldokument in einer Textverarbeitung erzeugt wurde. Liegt der Datei aber ein Scan zugrunde, dann muss man ein PDF mit OCR erkennen.

In so einem speziellen Fall kommt ihr leider nicht kostenlos davon, wenn das Ergebnis etwas taugen soll. Bei den meisten anderen Ansätzen habt ihr so viel Arbeit damit, dass ihr den Text gleich selbst abtippen könntet. In unseren Tests hat sich das deutsche Programm FlexiPDF als sehr nützlich und durchdacht erwiesen. Es kann PDF-Dateien in einem „PDF-Korrekturmodus” öffnen, anschließend das PDF einer OCR-Behandlung unterziehen und bietet euch dann den erkannten Text zur weiteren Bearbeitung an. Die dafür notwendige . Die Ergebnisse sind erstaunlich gut und ermöglichen eine PDF-Bearbeitung wie in einer Textverarbeitung.

PDF mit OCR erkennen – online

Haben die Scans nicht zu viele Seiten, könnt ihr ein PDF-OCR online erledigen lassen! Dabei ist das Ergebnis erstaunlich gut. Auf der Webseite Online2PDF habt ihr die Möglichkeit, eure PDF-Datei hochzuladen, als Zielformat beispielsweise Word zu wählen und dann an bis zu 10 Seiten eine Texterkennung durchzuführen.

Nach Abschluss der Umwandlung steht die fertige Datei zum Download bereit. Ihr könnt sie direkt in Word bearbeiten und werdet feststellen, dass das Layout erhalten wurde und das Ergebnis erstaunlich wenig Fehler aufweist. Sind also eure PDF-Dateien nicht zu umfangreich, könnt ihr euch hier die Anschaffung spezieller Programme sparen. Ansonsten könnt ihr auch euer PDF schneiden, bevor ihr es in Stücken hochladet.

Mehr zum Thema

Zum besseren Verständnis der PDF-OCR-Notwendigkeit

Erstellt ihr ein Dokument in Word, mit Grafiken und Layout, und speichert es später als PDF, dann ist die gesamte Layoutstruktur in dem Dokument enthalten. Der Text ist klar lesbar, die Bilder wurden als Grafiken eingebunden. So ein PDF könnt ihr mit geeigneten PDF-Editoren oder sogar LibreOffice später öffnen und bearbeiten.

Wurde aber eine Seite eingescannt, dann enthält das PDF weder Text noch Layout. Tatsächlich wurde die Seite als Grafik eingescannt und das PDF enthält nur ein Bild! Um dann an den Text zu kommen, um ihn ggfs. zu exportieren und weiter zu bearbeiten, müsst ihr ein PDF mit OCR behandeln. Die Texterkennung versucht dann, die einzelnen Buchstaben zu erkennen und daraus einen Fließtext zu machen.

Weitere Themen: PDF, SoftMaker

Neue Artikel von GIGA SOFTWARE