ClarifyPix
Volver al blog

Cómo desenfocar y leer texto pixelado en documentos escaneados

Los documentos escaneados, las cartas antiguas y los papeles fotografiados a menudo tienen texto ilegible. Aquí se explica cómo hacer que el texto borroso y pixelado sea legible nuevamente sin pasar horas reescribiendo manualmente.

ClarifyPix Team2026-05-07

Mi abuela dejó unas ochenta cartas de la década de 1940, cuando mi El abuelo estaba en el extranjero. Hermosa y fluida escritura a mano en papel fino. papel de correo aéreo. El problema era que las cartas habían sido escaneadas en En algún momento, probablemente hace una década, en lo que parecían 150 DPI en un Escáner plano barato. Aproximadamente un tercio de las palabras eran ilegibles. Los caracteres individuales estaban manchados, la tinta se había descolorido a un gris pálido y el papel fino significaba que la escritura del otro lado se desangraba y Creó una imagen doble fantasmal.

Intenté leerlos tal como están. Me dio dolor de cabeza después de unas tres letras. Luego comencé a buscar formas de hacer legible el texto escaneado. otra vez. Esto es lo que funcionó y lo que fue una pérdida de tiempo.

Por qué el texto escaneado es diferente de la mejora de fotografías

La mayoría de los escaladores de IA están capacitados en fotografías. Son muy buenos en rostros, paisajes y objetos. El texto es diferente. Una carta es muy forma específica. Si la IA dobla una esquina cerrada o llena un hueco incorrectamente, convierte una letra en otra letra diferente. Una minúscula "c" se convierte en una "o". Una combinación "rn" se convierte en una "m". Estos no son problemas estéticos. Cambian el significado de las palabras.

El enfoque ideal para el texto es diferente al de las fotografías. Para fotos, tu Quiero que la IA genere detalles realistas. Para texto, quieres que afile los bordes y elimine el ruido mientras cambia las formas de los personajes como lo menos posible. Se trata más de limpiar lo que hay que de generando lo que podría haber allí.

Lo que probé y cómo me fue

Primero probé Photoshop. El filtro de nitidez hizo que el texto fuera ligeramente halos más definidos pero también introducidos alrededor de cada letra. después Al agudizarse, el texto parecía tener un brillo tenue. fue mas legible pero incómodo de leer durante más de unos pocos minutos seguidos. tiempo.

Luego probé un escalador de fotografías dedicado. Hizo que las letras parecieran Más limpios pero ligeramente redondeados en sus formas. Una "e" que debería haber tenido un travesaño afilado tenía otro suave y confuso. Está bien para una lectura informal, no es lo suficientemente bueno para preservar documentos históricos donde la exactitud la redacción importa.

Lo que finalmente funcionó fue usar un escalador de IA general al doble con entornos conservadores. El 2x upscale duplicó las dimensiones en píxeles, lo que por sí solo hizo que el texto pequeño fuera más fácil de leer. El afilado de la IA fue lo suficientemente sutil como para no distorsionar las formas de las letras. El resultado no fue perfecto. Quizás el 85% de las palabras que antes eran ilegibles se volvieron legibles. El 15% restante eran palabras cuyo escaneo original estaba muy degradado. que ninguna mejora podría recuperarlos.

El proceso de OCR que ahorró semanas de trabajo

Después de hacer que las letras fueran legibles, quería crear texto con capacidad de búsqueda. Ejecuté los escaneos mejorados a través del software OCR para digitalizar todo. Esto es lo que aprendí sobre cómo hacer que esto funcione bien.

Realce siempre antes del OCR. La diferencia en la precisión del reconocimiento es dramático. En las cartas de mi abuela, OCR en los escaneos originales. Obtuve alrededor del 60% de las palabras correctas. En las versiones mejoradas con IA, obtuvo alrededor del 85%. Esa mejora del 25% significó que estaba corrigiendo algunas palabras. por página en lugar de escribir cada dos palabras desde cero.

Para documentos donde cada palabra importa, como documentos legales o registros genealógicos, no confíe únicamente en el OCR, incluso en escaneos mejorados. La IA y el OCR juntos harán la mayor parte bien, pero un solo Un carácter mal leído en un nombre, fecha o dirección puede enviarte al camino de investigación equivocado. Utilice el OCR como punto de partida y verifique mediante leyendo la imagen mejorada usted mismo.

¿Qué hacer con el sangrado del otro lado?

El fino papel de correo aéreo en las cartas de mi abuela significaba el Se veía la escritura en la parte de atrás. Esto confundió al escalador de IA. eso Intenté enfocar ambas capas de texto simultáneamente, convirtiendo al fantasma escribiendo en un segundo conjunto de caracteres borrosos superpuestos al primero.

La solución fue preprocesar los escaneos antes de mejorarlos. Abrí cada uno escanear en un editor de imágenes y aumentar el contraste hasta que El fondo era lo más parecido al blanco posible. Esto redujo la visibilidad del sangrado a través del texto. Luego ejecuté la IA de nivel superior. el El resultado no fue perfecto. El texto fantasma todavía era apenas visible. pero era lo suficientemente tenue como para que el texto del anverso fuera claramente dominante.

En los peores casos, donde el sangrado fue tan severo que ambas partes eran igualmente visibles, dupliqué la capa, apliqué un fuerte desenfoque a aisló el texto fantasma y lo restó del original. esto es entrar en territorio de restauración manual, pero durante los cinco o seis peores cartas entre ochenta, valió la pena el esfuerzo.

Terminé de digitalizar las ochenta cartas en unos tres fines de semana. el La mejora de la IA hizo que la mayoría de ellos fueran legibles. El OCR volvió legible imágenes en texto con capacidad de búsqueda. El trabajo manual fue verificar nombres, fechas y lugares. Las cartas de mi abuela ahora se pueden buscar PDF del que toda mi familia tiene copias. Los escaneos originales fueron casi inutilizable. Las versiones mejoradas les devolvieron la vida.