スキャンした文書のピクセル化された文字をぼかし解除して読む方法
スキャンした書類、古い手紙、写真に撮った書類には、読めない文字が含まれていることがよくあります。ここでは、何時間も手作業で打ち直すことなく、ぼやけたピクセル化された文字を再び判読可能にする方法を紹介します。
私の祖母は、私が亡くなった1940年代から約80通の手紙を残しました。 祖父は海外にいました。 薄くて流れるような美しい筆跡 エアメールの紙。 問題は、手紙が次の時点でスキャンされたことです。 おそらく 10 年前のある時点で、150 DPI に見えたとき、 安価なフラットベッドスキャナ。 単語の約3分の1は読めませんでした。 個々の文字はにじみ、インクは薄灰色に褪色し、 紙が薄いので反対側の文字がにじみ出てしまい、 幽霊のような二重像を作り出しました。
そのまま読んでみました。 3時くらいから頭が痛くなった 文字。 それから、スキャンしたテキストを読み取れるようにする方法を探し始めました。 またまた。 ここでは何がうまくいき、何が時間の無駄だったのかを説明します。
スキャンしたテキストが写真の補正と異なる理由
AI アップスケーラーのほとんどは写真を使ってトレーニングを受けています。 彼らはとても上手です 顔、風景、物体。 テキストが違います。 手紙というのはとても 特定の形状。 AI が鋭い角を丸めたり、隙間を埋めたりする場合 間違えると、ある文字が別の文字に変わってしまいます。 小文字 「c」が「o」になります。 「rn」の組み合わせは「m」になります。 これらはそうではありません 美容上の問題。 彼らは言葉の意味を変えます。
テキストの理想的なアプローチは写真とは異なります。 写真に関しては、あなたは AI にリアルな詳細を生成してもらいたい。 テキストの場合は、次のようにします。 文字の形状を変更しながらエッジをシャープにし、ノイズを除去します。 できるだけ少なく。 それはむしろそこにあるものをきれいにすることです そこにあるかもしれないものを生成します。
試したこととその結果
まずはPhotoshopを試してみました。 シャープフィルターで文字が少しぼやけてしまいました より明確ですが、すべての文字の周りにハローも導入されました。 後 シャープにすると、文字がかすかに光っているように見えました。 それ以上でした 読みやすいが、数分間以上読むのは不快である 時間。
そこで専用のフォトアップスケーラーを試してみました。 文字が見えるようになりました すっきりとしていますが、わずかに丸みを帯びた形状です。 あるべきだった「e」 鋭いクロスバーには柔らかく、不明瞭なクロスバーがありました。 カジュアルな読書には十分ですが、 正確な情報が保存されている歴史的文書の保存には十分ではありません。 言葉遣いが重要です。
最終的にうまくいったのは、一般的な AI アップスケーラーを 2 倍で使用することでした。 保守的な設定。 2x アップスケールによりピクセル寸法が 2 倍になり、 これにより、小さなテキストが読みやすくなります。 AIの研ぎ澄ましは、 文字の形が崩れない程度に繊細です。 結果はそうではありませんでした 完璧です。 おそらく、以前は読めなかった単語の 85% が読めるようになりました。 残りの 15% は、元のスキャンが著しく劣化した単語でした どんなに強化してもそれらを回復することはできません。
数週間の作業を節約した OCR パイプライン
文字を読みやすくした後、検索可能なテキストを作成したいと考えました。 OCR ソフトウェアを使用して拡張スキャンを実行し、すべてをデジタル化しました。 これをうまく機能させるために私が学んだことは次のとおりです。
OCR の前に必ず強化してください。 認識精度の違いは、 ドラマチックな。 祖母の手紙、オリジナルスキャンのOCR 約60%の単語が正解しました。 AI強化版では、 約85%を獲得しました。 25% の改善は、いくつかの単語を修正したことを意味します 単語を 1 つおきに最初から入力するのではなく、ページごとに入力できます。
法律文書や法律文書など、すべての単語が重要な文書の場合 家系図記録では、拡張スキャンであっても OCR だけを信頼しないでください。 AI と OCR を組み合わせることでほとんどの情報を正確に取得できますが、 名前、日付、住所の文字を読み間違えると、 間違った研究の道。 OCR を開始点として使用し、次のように検証します。 強化された画像を自分で読み取ってください。
反対側からのにじみについてはどうすればよいですか
祖母の手紙に書かれた薄い航空便の紙は、 裏面の書き込みが透けて見えました。 これは AI アップスケーラーを混乱させました。 それ テキストの両方のレイヤーを同時にシャープにして、ゴーストを回転させようとしました 最初の文字の上に重ねて塗りつぶされた文字の 2 番目のセットに書き込みます。
修正は、拡張前にスキャンを前処理することでした。 それぞれ開けてみた 画像エディタでスキャンし、コントラストが高くなるまでコントラストを上げました。 背景は出来るだけ白に近づけました。 これにより、 テキストのにじみの視認性。 次に、AI アップスケールを実行しました。 の 結果は完璧ではありませんでした。 ゴーストテキストはまだかすかに見えていました。 でも 十分に抑制されているため、表面のテキストが明らかに優勢でした。
最悪のケースでは、裏抜けがひどく、両側が レイヤーを複製し、強いぼかしを適用しました。 ゴースト テキストを分離し、元のテキストから差し引きます。 これは 手動修復の領域に入りますが、5 ~ 6 件の場合 80 通中最悪の手紙でしたが、努力する価値はありました。
3週間ほどの週末で80通すべての電子化を完了した。 の AIの強化により、そのほとんどが判読可能になりました。 OCR により読み取り可能になりました 画像を検索可能なテキストに変換します。 手作業では名前を確認していましたが、 日付と場所。 祖母の手紙が検索可能になりました 家族全員がコピーを持っている PDF。 元のスキャンは ほぼ使用不能。 強化版で復活しました。