Como Desfocar e Ler Texto Pixelado em Documentos Digitalizados
Documentos escaneados, cartas antigas e papelada fotografada frequentemente têm texto ilegível. Aqui está como tornar o texto borrado ou pixelado legível novamente sem passar horas digitando manualmente.
Minha avó deixou cerca de oitenta cartas da década de 1940, quando meu o avô estava no exterior. Uma caligrafia bonita e fluida em letras finas papel de correio aéreo. O problema era que as cartas tinham sido escaneadas em algum momento, provavelmente uma década atrás, no que parecia ser 150 DPI em um scanner de mesa barato. Cerca de um terço das palavras eram ilegíveis. Caracteres individuais estavam manchados, a tinta havia desbotado para um cinza claro e o papel fino significava que a escrita do outro lado vazava e criou uma imagem dupla fantasmagórica.
Tentei lê-los como estão. Fiquei com dor de cabeça depois das três cartas. Então comecei a procurar maneiras de tornar o texto digitalizado legível novamente. Aqui está o que funcionou e o que foi uma perda de tempo.
Por que o texto digitalizado é diferente do aprimoramento de fotos
A maioria dos upscalers de IA são treinados em fotografias. Eles são muito bons em rostos, paisagens e objetos. O texto é diferente. Uma carta é muito forma específica. Se a IA contornar uma esquina acentuada ou preencher uma lacuna incorretamente, transforma uma letra em uma letra diferente. Uma letra minúscula "c" se torna um "o". Uma combinação “rn” torna-se um “m”. Estes não são problemas cosméticos. Eles mudam o significado das palavras.
A abordagem ideal para texto é diferente das fotos. Para fotos, você queremos que a IA gere detalhes realistas. Para texto, você quer que afie as bordas e remova o ruído enquanto altera as formas dos caracteres conforme o mínimo possível. Trata-se mais de limpar o que está lá do que gerando o que pode estar lá.
O que eu tentei e como foi
Primeiro tentei o Photoshop. O filtro de nitidez tornou o texto ligeiramente mais definido, mas também introduziu halos em torno de cada letra. Depois aumentando a nitidez, o texto parecia ter um brilho fraco. Foi mais legível, mas desconfortável de ler por mais de alguns minutos seguidos tempo.
Então tentei um upscaler de fotos dedicado. Isso fez as letras parecerem mais limpos, mas ligeiramente arredondados em suas formas. Um "e" que deveria ter tido uma barra transversal afiada tinha outra suave e indistinta. Ótimo para leitura casual, não é bom o suficiente para preservar documentos históricos onde a exata a redação é importante.
O que finalmente funcionou foi usar um upscaler geral de IA em 2x com configurações conservadoras. O upscale 2x dobrou as dimensões dos pixels, o que por si só tornou o texto pequeno mais fácil de ler. A nitidez da IA foi sutil o suficiente para não distorcer o formato das letras. O resultado não foi perfeito. Talvez 85% das palavras anteriormente ilegíveis tenham se tornado legíveis. Os 15% restantes eram palavras em que a digitalização original estava tão degradada que nenhuma quantidade de aprimoramento poderia recuperá-los.
O pipeline de OCR que economizou semanas de trabalho
Depois de tornar as letras legíveis, quis criar um texto pesquisável. Executei as digitalizações aprimoradas por meio do software OCR para digitalizar tudo. Aqui está o que aprendi sobre como fazer isso funcionar bem.
Sempre aprimore antes do OCR. A diferença na precisão do reconhecimento é dramático. Nas cartas da minha avó, OCR nas digitalizações originais acertou cerca de 60% das palavras. Nas versões aprimoradas de IA, obteve cerca de 85%. Essa melhoria de 25% significou que eu estava corrigindo algumas palavras por página em vez de digitar todas as outras palavras do zero.
Para documentos onde cada palavra é importante, como documentos legais ou registros genealógicos, não confie apenas no OCR, mesmo em digitalizações aprimoradas. A IA e o OCR juntos acertarão a maior parte, mas um único caracteres mal interpretados em um nome, data ou endereço podem levá-lo ao caminho de pesquisa errado. Use o OCR como ponto de partida e verifique lendo você mesmo a imagem aprimorada.
O que fazer com o sangramento do outro lado
O papel fino do correio aéreo nas cartas da minha avó significava a escrita nas costas aparecia. Isso confundiu o upscaler de IA. Isso tentei aumentar a nitidez de ambas as camadas de texto simultaneamente, transformando o fantasma escrevendo em um segundo conjunto de caracteres borrados sobrepostos ao primeiro.
A solução foi pré-processar as varreduras antes do aprimoramento. Eu abri cada digitalize em um editor de imagens e aumente o contraste até o o fundo era o mais próximo possível do branco. Isto reduziu o visibilidade do sangramento através do texto. Então executei o upgrade de IA. O o resultado não foi perfeito. O texto fantasma ainda estava ligeiramente visível. Mas era suficientemente moderado para que o texto da frente fosse claramente dominante.
Para os piores casos, onde o sangramento foi tão grave que ambos os lados estavam igualmente visíveis, dupliquei a camada, apliquei um desfoque forte isole o texto fantasma e subtraia-o do original. Isto é entrando no território da restauração manual, mas pelos cinco ou seis piores cartas entre oitenta, valeu a pena o esforço.
Terminei de digitalizar todas as oitenta cartas em cerca de três fins de semana. O O aprimoramento da IA tornou a maioria deles legíveis. O OCR tornou o legível imagens em texto pesquisável. O trabalho manual consistia em verificar nomes, datas e lugares. As cartas da minha avó agora são pesquisáveis PDF do qual toda a minha família tem cópias. As digitalizações originais foram quase inutilizável. As versões aprimoradas os trouxeram de volta à vida.