Comment Déflouter et Lire le Texte Pixelisé dans les Documents Scannés
Les documents scannés, les vieilles lettres et les papiers photographiés ont souvent du texte illisible. Voici comment rendre à nouveau lisible un texte flou ou pixellisé sans passer des heures à le retaper manuellement.
Ma grand-mère a laissé derrière elle environ quatre-vingts lettres des années 40 lorsque mon grand-père était à l’étranger. Belle écriture fluide sur un papier fin papier de poste aérienne. Le problème était que les lettres avaient été numérisées à à un moment donné, il y a probablement dix ans, à ce qui ressemblait à 150 DPI sur un scanner à plat bon marché. Environ un tiers des mots étaient illisibles. Les caractères individuels étaient tachés, l'encre était passée au gris pâle et le papier fin signifiait que l'écriture de l'autre côté saignait et créé une double image fantomatique.
J'ai essayé de les lire tels quels. Je me suis donné mal à la tête après environ trois heures lettres. Ensuite, j'ai commencé à chercher des moyens de rendre le texte numérisé lisible. encore une fois. Voici ce qui a fonctionné et ce qui a été une perte de temps.
Pourquoi le texte numérisé est différent de l'amélioration des photos
La plupart des upscalers d’IA sont formés sur des photographies. Ils sont très doués pour visages, paysages et objets. Le texte est différent. Une lettre est un très forme spécifique. Si l’IA contourne un coin pointu ou comble un vide à tort, il transforme une lettre en une autre lettre. Une minuscule "c" devient un "o". Une combinaison « rn » devient un « m ». Ce ne sont pas problèmes cosmétiques. Ils changent le sens des mots.
L’approche idéale pour le texte est différente de celle pour les photos. Pour les photos, vous veulent que l'IA génère des détails réalistes. Pour le texte, vous le souhaitez aiguisez les bords et supprimez le bruit tout en modifiant la forme des caractères au fur et à mesure le moins possible. Il s'agit plus de nettoyer ce qui existe que générer ce qui pourrait être là.
Ce que j'ai essayé et comment ça s'est passé
J'ai d'abord essayé Photoshop. Le filtre de netteté rend le texte légèrement plus défini mais également introduit des halos autour de chaque lettre. Après En accentuant la netteté, le texte semblait avoir une faible lueur. C'était plus lisible mais inconfortable à lire pendant plus de quelques minutes à la fois le temps.
Ensuite, j'ai essayé un upscaler photo dédié. Cela donnait l'impression que les lettres leurs formes sont plus propres mais légèrement arrondies. Un "e" qui aurait dû avoir une barre transversale pointue en avait une douce et indistincte. Très bien pour une lecture occasionnelle, pas assez bon pour préserver des documents historiques où l'exactitude la formulation compte.
Ce qui a finalement fonctionné, c'est d'utiliser un upscaler général d'IA à 2x avec paramètres conservateurs. Le haut de gamme 2x a doublé les dimensions des pixels, ce qui à lui seul rendait les petits textes plus faciles à lire. L'affûtage de l'IA a été suffisamment subtil pour ne pas déformer la forme des lettres. Le résultat n'a pas été parfait. Peut-être que 85 % des mots auparavant illisibles sont devenus lisibles. Les 15 % restants étaient des mots dont l'analyse originale était si dégradée qu'aucune amélioration ne pourrait les récupérer.
Le pipeline OCR qui a permis d'économiser des semaines de travail
Après avoir rendu les lettres lisibles, j'ai voulu créer un texte consultable. J'ai exécuté les analyses améliorées via un logiciel OCR pour tout numériser. Voici ce que j'ai appris pour bien faire en sorte que cela fonctionne.
Améliorez toujours avant l'OCR. La différence dans la précision de la reconnaissance est dramatique. Sur les lettres de ma grand-mère, OCR sur les scans originaux J'ai obtenu environ 60 % de mots corrects. Sur les versions améliorées par l'IA, il obtenu environ 85%. Cette amélioration de 25 % signifiait que je corrigeais quelques mots par page au lieu de taper un mot sur deux à partir de zéro.
Pour les documents où chaque mot compte, comme les documents juridiques ou documents généalogiques, ne vous fiez pas uniquement à l'OCR, même sur des numérisations améliorées. L'IA et l'OCR réunis permettront de résoudre l'essentiel du problème, mais un seul Un caractère mal lu dans un nom, une date ou une adresse peut vous faire perdre le mauvais chemin de recherche. Utilisez l'OCR comme point de départ et vérifiez en lire vous-même l'image améliorée.
Que faire en cas de saignement de l'autre côté
Le mince papier postal utilisé dans les lettres de ma grand-mère signifiait que l'écriture au dos transparaît. Cela a dérouté l'upscaler de l'IA. Il essayé de rendre plus nettes les deux couches de texte simultanément, transformant le fantôme écrire dans un deuxième ensemble de caractères maculés superposés au premier.
Le correctif consistait à prétraiter les analyses avant l'amélioration. J'ai ouvert chacun numériser dans un éditeur d'images et augmenter le contraste jusqu'à ce que le le fond était aussi proche que possible du blanc. Cela a réduit le visibilité du fond perdu à travers le texte. Ensuite, j'ai lancé l'IA vers le haut. Le le résultat n'était pas parfait. Le texte fantôme était encore à peine visible. Mais il était suffisamment discret pour que le texte du recto soit clairement dominant.
Dans les pires cas, où le saignement était si grave que les deux côtés étaient également visibles, j'ai dupliqué le calque, appliqué un flou important à isoler le texte fantôme et le soustraire de l'original. C'est entrer dans le territoire de la restauration manuelle, mais pour les cinq ou six pires lettres sur quatre-vingts, ça en valait la peine.
J'ai fini de numériser les quatre-vingts lettres en trois week-ends environ. Le L'amélioration de l'IA a rendu la plupart d'entre eux lisibles. L'OCR est devenu lisible images en texte consultable. Le travail manuel consistait à vérifier les noms, dates et lieux. Les lettres de ma grand-mère sont désormais consultables PDF dont toute ma famille possède des copies. Les scans originaux étaient presque inutilisable. Les versions améliorées leur ont redonné vie.