Как убрать размытость и читать пикселизированный текст в отсканированных документах
Отсканированные документы, старые письма и сфотографированные бумаги часто содержат нечитаемый текст. Вот как сделать размытый, пикселизованный текст читаемым снова, не тратя часы на ручной ввод.
Моя бабушка оставила после себя около восьмидесяти писем 1940-х годов, когда мой дедушка был за границей. Красивый, плавный почерк на тонком листе. авиапочтовая бумага. Проблема заключалась в том, что письма были отсканированы на в какой-то момент, вероятно, десять лет назад, при разрешении, похожем на 150 DPI на дешевый планшетный сканер. Около трети слов было нечитабельно. Отдельные символы были размазаны, чернила выцвели до бледно-серого цвета, а тонкая бумага означала, что надпись на другой стороне проступала и создал призрачный двойной образ.
Я попробовал прочитать их как есть. Примерно через три у меня заболела голова. буквы. Тогда я начал искать способы сделать отсканированный текст читабельным. снова. Вот что сработало, а что было пустой тратой времени.
Почему отсканированный текст отличается от улучшения фотографий
Большинство специалистов по масштабированию ИИ обучаются на фотографиях. Они очень хороши в лица, пейзажи и предметы. Текст другой. Письмо – это очень специфическая форма. Если ИИ закругляет острый угол или заполняет пробел неправильно, он превращает одну букву в другую букву. строчная буква «с» становится «о». Комбинация «rn» превращается в «m». Это не косметические проблемы. Они меняют смысл слов.
Идеальный подход к тексту отличается от фотографий. Для фотографий вы хочу, чтобы ИИ создавал реалистичные детали. Для текста вы хотите, чтобы он повысить резкость краев и удалить шум, изменяя при этом форму символов, как как можно меньше. Речь идет скорее об очистке того, что есть, чем генерировать то, что может быть там.
Что я пробовал и как все прошло
Сначала я попробовал Фотошоп. Фильтр резкости слегка сделал текст более четкое, но также добавило ореолы вокруг каждой буквы. После при повышении резкости текст выглядел так, будто имел слабое свечение. Это было больше разборчиво, но неудобно читать более нескольких минут подряд. время.
Затем я попробовал специальный преобразователь фотографий. Благодаря этому буквы выглядели чище, но слегка округлили свои формы. Буква "е", которая должна была иметь у острой перекладины была мягкая, неясная. Подходит для повседневного чтения, недостаточно хорош для сохранения исторических документов, где точная формулировка имеет значение.
Что в конечном итоге сработало, так это использование обычного ИИ-апскейлера в 2 раза с консервативные настройки. Увеличение размера в 2 раза увеличило размеры пикселей вдвое, что само по себе облегчило чтение небольшого текста. Повышение резкости ИИ было достаточно тонкий, чтобы не искажать форму букв. Результата не было идеально. Возможно, 85% ранее нечитабельных слов стали читаемыми. Остальные 15% были словами, исходное сканирование которых было настолько искажено. что никакие улучшения не смогут их восстановить.
Конвейер OCR, сэкономивший недели работы
Сделав буквы читабельными, я захотел создать текст с возможностью поиска. Я провел расширенное сканирование с помощью программного обеспечения OCR, чтобы оцифровать все. Вот что я узнал о том, как сделать эту работу хорошо.
Всегда улучшайте перед распознаванием текста. Разница в точности распознавания драматичный. На письмах моей бабушки, OCR на оригинальных сканах правильно написал около 60% слов. В версиях с расширенным ИИ это получил около 85%. Улучшение на 25 % означало, что я исправил несколько слов. на страницу вместо того, чтобы вводить каждое слово с нуля.
Для документов, где каждое слово имеет значение, таких как юридические документы или генеалогические записи, не доверяйте только распознаванию текста даже при расширенном сканировании. Вместе AI и OCR сделают большую часть правильно, но один неправильно прочитанный символ в имени, дате или адресе может сбить вас с толку. неправильный путь исследования. Используйте OCR в качестве отправной точки и проверьте, самостоятельно читая улучшенное изображение.
Что делать с кровотечением с другой стороны
Тонкая авиапочтовая бумага в письмах моей бабушки означала надпись на спине проступала. Это сбило с толку ИИ-апскейлера. Это попробовал повысить резкость обоих слоев текста одновременно, превратив призрака запись во второй набор размазанных символов, наложенных на первый.
Исправление заключалось в предварительной обработке сканов перед улучшением. я открыл каждый сканируйте в графическом редакторе и увеличивайте контрастность до тех пор, пока фон был максимально приближен к белому. Это уменьшило видимость кровотечения через текст. Затем я запустил ИИ в более высоком качестве. результат был не идеален. Призрачный текст все еще был слабо виден. Но он был настолько приглушенным, что текст на лицевой стороне явно доминировал.
В худших случаях, когда кровотечение было настолько сильным, что обе стороны были одинаково видны, я продублировал слой, применил к нему сильное размытие. изолируйте призрачный текст и вычтите его из оригинала. Это попадаем на территорию ручного восстановления, но на пять или шесть худшие письма из восьмидесяти, оно того стоило.
Я закончил оцифровку всех восьмидесяти писем примерно за три выходных. Улучшение искусственного интеллекта сделало большинство из них читабельными. OCR сделало читаемым изображения в текст с возможностью поиска. Ручная работа заключалась в проверке имен, даты и места. Письма моей бабушки теперь доступны для поиска. PDF, копии которого есть у всей моей семьи. Оригинальные сканы были почти непригоден для использования. Улучшенные версии вернули их к жизни.