ClarifyPix
Zurück zum Blog

Wie man verschwommenen und pixeligen Text in gescannten Dokumenten entschleiert und liest

Gescannte Dokumente, alte Briefe und fotografierte Papiere haben oft unlesbaren Text. Hier erfahren Sie, wie man verschwommenen, verpixelten Text wieder lesbar macht, ohne stundenlang manuell neu zu tippen.

ClarifyPix Team2026-05-07

Meine Großmutter hinterließ etwa achtzig Briefe aus den 1940er Jahren, als ich … Großvater war im Ausland. Schöne, fließende Handschrift auf dünnem Papier Luftpostpapier. Das Problem bestand darin, dass die Briefe gescannt worden waren Irgendwann, wahrscheinlich vor einem Jahrzehnt, bei etwas, das wie 150 DPI auf einem aussah günstiger Flachbettscanner. Etwa ein Drittel der Wörter war unleserlich. Einzelne Zeichen waren verschmiert, die Tinte war blassgrau verblasst und Durch das dünne Papier war die Schrift auf der anderen Seite durchgesickert ein gespenstisches Doppelbild entstanden.

Ich habe versucht, sie so zu lesen, wie sie sind. Ich bekam nach etwa drei Jahren Kopfschmerzen Buchstaben. Dann begann ich nach Möglichkeiten zu suchen, gescannten Text lesbar zu machen wieder. Hier erfahren Sie, was funktioniert hat und was Zeitverschwendung war.

Warum sich gescannter Text von der Fotoverbesserung unterscheidet

Die meisten KI-Upscaler sind auf Fotos geschult. They are very good at Gesichter, Landschaften und Objekte. Text is different. A letter is a very specific shape. Wenn die KI eine scharfe Kurve umgeht oder eine Lücke füllt fälschlicherweise wird ein Buchstabe in einen anderen Buchstaben umgewandelt. A lowercase "c" becomes an "o". Eine „rn“-Kombination wird zu einem „m“. These are not cosmetic problems. Sie verändern die Bedeutung von Wörtern.

Der ideale Ansatz für Text unterscheidet sich von dem für Fotos. Für Fotos, Sie möchten, dass die KI realistische Details generiert. Für Text möchten Sie es Schärfen Sie Kanten und entfernen Sie Rauschen, während Sie die Zeichenformen ändern so wenig wie möglich. Es geht mehr darum, aufzuräumen, was da ist erzeugen, was da sein könnte.

Was ich versucht habe und wie es gelaufen ist

Zuerst habe ich Photoshop ausprobiert. Durch den Schärfungsfilter wurde der Text leicht verzerrt definierter, führte aber auch Lichthöfe um jeden Buchstaben ein. Nachher Beim Schärfen schien der Text schwach zu leuchten. Es war mehr lesbar, aber es ist unangenehm, es länger als ein paar Minuten am Stück zu lesen Zeit.

Dann habe ich einen speziellen Foto-Upscaler ausprobiert. Es ließ die Buchstaben aussehen sauberer, aber leicht abgerundete Formen. Ein „e“, das hätte sein sollen Eine scharfe Querlatte hatte eine weiche, undeutliche. Gut geeignet für Gelegenheitslektüre, nicht gut genug, um historische Dokumente genau zu bewahren Der Wortlaut ist wichtig.

Was letztendlich funktionierte, war die Verwendung eines allgemeinen KI-Upscalers mit 2x konservative Einstellungen. Durch die 2-fache Hochskalierung wurden die Pixelabmessungen verdoppelt. was allein schon die Lesbarkeit kleinerer Texte erleichterte. Die KI-Schärfung war subtil genug, dass die Buchstabenformen nicht verzerrt wurden. Das Ergebnis war nicht perfekt. Vielleicht 85 % der zuvor unlesbaren Wörter wurden lesbar. Bei den restlichen 15 % handelte es sich um Wörter, bei denen der ursprüngliche Scan stark beeinträchtigt war dass keine noch so große Verbesserung sie wiederherstellen könnte.

Die OCR-Pipeline, die wochenlange Arbeit gespart hat

Nachdem ich die Buchstaben lesbar gemacht hatte, wollte ich durchsuchbaren Text erstellen. Ich habe die erweiterten Scans durch eine OCR-Software laufen lassen, um alles zu digitalisieren. Hier ist, was ich darüber gelernt habe, wie dies gut funktioniert.

Verbessern Sie immer vor der OCR. Der Unterschied in der Erkennungsgenauigkeit ist dramatisch. Auf den Briefen meiner Großmutter, OCR auf den Originalscans habe etwa 60 % der Wörter richtig verstanden. Bei den AI-erweiterten Versionen ist es habe etwa 85 % erreicht. Diese 25-prozentige Verbesserung bedeutete, dass ich ein paar Wörter korrigierte pro Seite, anstatt jedes zweite Wort von Grund auf neu einzugeben.

Für Dokumente, bei denen jedes Wort zählt, wie z. B. juristische Dokumente oder Wenn Sie genealogische Aufzeichnungen erstellen möchten, vertrauen Sie der OCR allein nicht, auch nicht bei erweiterten Scans. Die KI und die OCR zusammen werden das meiste richtig machen, aber nur eines Ein falsch verstandenes Zeichen in einem Namen, einem Datum oder einer Adresse kann Sie in die Irre führen Falscher Forschungsweg. Verwenden Sie die OCR als Ausgangspunkt und überprüfen Sie sie Lesen Sie das verbesserte Bild selbst.

Was tun gegen Durchbluten von der anderen Seite?

Das dünne Luftpostpapier in den Briefen meiner Großmutter bedeutete das Die Schrift auf der Rückseite war durchscheinend. Dies verwirrte den KI-Upscaler. Es Ich habe versucht, beide Textebenen gleichzeitig zu schärfen, wodurch das Gespenst umgedreht wurde Schreiben in einen zweiten Satz verschmierter Zeichen, der über dem ersten liegt.

Die Lösung bestand darin, die Scans vor der Verbesserung vorzuverarbeiten. Ich habe jedes geöffnet Scannen Sie in einem Bildbearbeitungsprogramm und erhöhen Sie den Kontrast, bis der Der Hintergrund war so weiß wie möglich. Dies reduzierte die Sichtbarkeit des Anschnitts durch den Text. Dann habe ich die KI hochskaliert ausgeführt. Die Das Ergebnis war nicht perfekt. Der Geistertext war immer noch schwach sichtbar. Aber es war so gedämpft, dass der Text auf der Vorderseite deutlich dominierte.

Für die schlimmsten Fälle, in denen das Durchbluten so stark war, dass beide Seiten betroffen waren waren gleichermaßen sichtbar, ich habe die Ebene dupliziert und eine starke Unschärfe darauf angewendet Isolieren Sie den Geistertext und subtrahieren Sie ihn vom Original. Das ist Ich komme in den Bereich der manuellen Restaurierung, aber für die fünf oder sechs Die schlechtesten Briefe von achtzig, die Mühe hat sich gelohnt.

Ich habe in etwa drei Wochenenden alle achtzig Briefe digitalisiert. Die Die KI-Verbesserung machte die meisten davon lesbar. Die OCR machte das lesbar Bilder in durchsuchbaren Text umwandeln. Die manuelle Arbeit bestand darin, Namen zu überprüfen, Daten und Orte. Die Briefe meiner Großmutter sind jetzt durchsuchbar PDF, von dem meine ganze Familie Kopien hat. Die Originalscans waren nahezu unbrauchbar. Die verbesserten Versionen erweckten sie wieder zum Leben.