如何让扫描文件中模糊的文字变得清晰可读
扫描文件、旧信件和拍下来的文书经常有无法辨认的文字。这里教你如何让模糊的像素化文字重新可读,不用花几个小时手动重新输入。
我祖母留下了大约八十封 1940 年代的信,是祖父在海外时写的。漂亮流畅的笔迹写在薄薄的航空信纸上。问题是这些信在某个时候被扫描过,大概十年前,用了一台便宜平板扫描仪,看起来只有 150 DPI。大约三分之一的字词无法辨认。我试过原样阅读。读了三封信就头疼了。然后我开始寻找让扫描文字重新可读的方法。
为什么扫描文字和照片增强不同
大多数 AI 放大工具在照片上训练。文字不同。一个字母是非常特定的形状。如果 AI 把尖角变圆或错误填补缺口,会把一个字母变成另一个字母:小写 c 变成 o,rn 组合变成 m。对照片你想要 AI 生成逼真细节。对文字你想要它锐化边缘、去除噪点,同时尽可能不改字母形状。更多是清理已有的东西而不是生成可能有的东西。
我试过的方法和效果
Photoshop 锐化滤镜让文字稍微清晰但也引入了光晕。专用照片放大工具让字母看起来更干净但把形状微微变圆。最终有效的是保守设置的通用 AI 2 倍放大。像素加倍本身就让小文字更容易读。AI 锐化足够微妙没有扭曲字母形状。大约 85% 的之前无法辨认的字词变得可读。剩余 15% 是原扫描损坏太严重无法恢复。
OCR 流程
让文字可读后,我跑了 OCR。先增强再 OCR。准确性差别巨大。我祖母的信上,OCR 在原扫描上对了约 60%。在 AI 增强版上对了约 85%。那 25% 的提升意味着我每页纠正几个词而不是从头打每个词。对于关键文件,不要只信任 OCR。AI 和 OCR 一起会搞对大部分,但名字、日期或地址中的一个错字就可能让你走错研究方向。用 OCR 做起点,自己阅读增强图像来验证。
我花了大约三个周末数字化了全部八十封信。AI 增强让大部分可读。OCR 把可读图像变成可搜索文字。手动工作是验证名字、日期和地点。祖母的信现在是一个可搜索的 PDF,全家都有副本。