كيفية إزالة التعتيم وقراءة النص البكسلي في المستندات الممسوحة ضوئيًا
المستندات الممسوحة ضوئياً، والرسائل القديمة، والأوراق المصوَّرة غالباً ما تحتوي على نصوص غير قابلة للقراءة. إليك كيفية جعل النص الضبابي أو شديد البيكسلة مقروءًا مرة أخرى دون قضاء ساعات في إعادة كتابته يدويًا.
تركت جدتي حوالي ثمانين رسالة من الأربعينيات عندما كان جدي في الخارج. خط جميل ومتدفق على ورق بريد جوي رقيق. المشكلة كانت أن الرسائل قد تم مسحها ضوئيًا في وقت ما، ربما قبل عقد من الزمن، بمعدل 150 نقطة في البوصة على ماسح ضوئي رخيص. كان نحو ثلث الكلمات غير قابلة للقراءة. كانت الحروف الفردية مشوشة، وتلاشت الحبر إلى اللون الرمادي الفاتح، والورق الرقيق جعَل الكتابة على الجانب الآخر تظهر وتخلق صورة مزدوجة شبحية.
حاولت قراءتها كما هي. أصبت بصداع بعد حوالي ثلاث حروف. ثم بدأت بالبحث عن طرق لجعل النصوص الممسوحة ضوئيًا قابلة للقراءة مرة أخرى. إليك ما نجح وما كان مضيعة للوقت.
لماذا يختلف النص الممسوح ضوئياً عن تحسين الصور
معظم أدوات تكبير الصورة بالذكاء الاصطناعي مدربة على الصور الفوتوغرافية. إنها جيدة جدًا في التعامل مع الوجوه والمناظر الطبيعية والأشياء. النص مختلف. الحرف له شكل محدد جدًا. إذا قام الذكاء الاصطناعي بتقريب زاوية حادة أو ملء فجوة بشكل غير صحيح، فإنه يحوّل حرفًا واحدًا إلى حرف آخر. الحرف الصغير "c" يصبح "o". تركيبة "rn" تصبح "m". هذه ليست مشاكل تجميلية. إنها تغير معنى الكلمات.
النهج المثالي للنص يختلف عن الصور. بالنسبة للصور، تريد من الذكاء الاصطناعي إنشاء تفاصيل واقعية. أما بالنسبة للنص، فترغب في أن يقوم بتوضيح الحواف وإزالة الضوضاء مع تغيير أشكال الحروف بأقل قدر ممكن. الأمر يتعلق أكثر بتنظيف ما هو موجود بدلاً من توليد ما قد يكون موجودًا.
ما حاولت وكيف كانت النتيجة
أولاً جربت الفوتوشوب. جعل فلتر التوضيح النص أكثر تحديدًا قليلاً لكنه أيضًا أوجد هالات حول كل حرف. بعد التوضيح، بدا النص وكأنه له توهج خفيف. كان أكثر قابلية للقراءة لكنه كان غير مريح للقراءة لأكثر من بضع دقائق في كل مرة.
ثم جربت برنامج تكبير الصور المخصص. جعل الحروف تبدو أنظف لكنه جعل أشكالها مستديرة قليلاً. الحرف "e" الذي كان من المفترض أن يكون له شريط عرضي حاد أصبح له شريط ناعم وغير محدد. مناسب للقراءة العادية، لكنه ليس جيدًا بما يكفي للحفاظ على الوثائق التاريخية حيث يكون النص الدقيق مهمًا.
ما نجح في النهاية هو استخدام مقيّم عام بالذكاء الاصطناعي بمضاعفة 2x مع إعدادات محافظة. لقد ضاعفت عملية التكبير 2x أبعاد البكسل، مما جعل النص الصغير أسهل في القراءة بمفرده. كانت عملية تحيين الذكاء الاصطناعي دقيقة بدرجة كافية بحيث لم تشوّه أشكال الحروف. النتيجة لم تكن مثالية. ربما أصبح حوالي 85% من الكلمات التي كانت غير قابلة للقراءة مسبقًا قابلة للقراءة. أما الـ 15% المتبقية فهي كلمات كانت النسخة الأصلية الممسوحة ضوئيًا متدهورة جدًا بحيث لا يمكن لأي مقدار من التحسين استعادتها.
خط معالجة التعرف البصري على الحروف الذي أنقذ أسابيع من العمل
بعد جعل الحروف قابلة للقراءة، أردت إنشاء نص قابل للبحث. قمت بتشغيل النسخ المحسّنة من خلال برنامج التعرف الضوئي على الحروف لتحويل كل شيء إلى صيغة رقمية. هذا ما تعلمته عن جعل هذا العمل يعمل بشكل جيد.
قم دائمًا بالتحسين قبل إجراء تقنية التعرف الضوئي على الحروف (OCR). الفرق في دقة التعرف يكون كبيرًا. في رسائل جدتي، حصلت تقنية التعرف الضوئي على الحروف من الفحوصات الأصلية على حوالي 60% من الكلمات صحيحة. في النسخ المحسَّنة بالذكاء الاصطناعي، حصلت على حوالي 85%. هذا التحسن بنسبة 25% يعني أنني كنت أصحح عدة كلمات في كل صفحة بدلاً من كتابة كلمة كل كلمتين من الصفر.
بالنسبة للوثائق التي تهم فيها كل كلمة، مثل الأوراق القانونية أو سجلات النسب، لا تثق في التعرف الضوئي على الحروف وحده حتى في الصور المحسنة. ستتعامل الذكاء الاصطناعي والتعرف الضوئي على الحروف مع معظم النص بشكل صحيح، لكن أي حرف واحد مقروء بشكل خاطئ في اسم، تاريخ، أو عنوان يمكن أن يوجهك إلى مسار بحث خاطئ. استخدم التعرف الضوئي على الحروف كنقطة انطلاق وتحقق بنفسك من خلال قراءة الصورة المحسنة.
ماذا تفعل بشأن التسلل من الجانب الآخر
كانت ورقة البريد الجوي الرقيقة في رسائل جدتي تعني أن الكتابة على الخلفية كانت تظهر من خلالها. هذا أربك مُكبر الصور بالذكاء الاصطناعي. حاول تحسين كلا طبقتي النص في نفس الوقت، مما حول الكتابة الشبحية إلى مجموعة ثانية من الحروف المشوشة فوق الأولى.
كان الحل هو معالجة الصور مسبقًا قبل التحسين. فتحت كل مسح ضوئي في محرر الصور وزدت التباين حتى أصبح الخلفية قريبة من البياض قدر الإمكان. هذا قلل من وضوح النص المتسرب من الجهة الأخرى. ثم قمت بتشغيل التكبير بواسطة الذكاء الاصطناعي. لم تكن النتيجة مثالية. لا يزال النص الشبح مرئيًا بشكل خافت. لكن تم تلطيفه بما يكفي بحيث أصبح نص الجانب الأمامي هو المسيطر بوضوح.
بالنسبة للأسوأ الحالات، حيث كان التسرّب من الجهة الأخرى شديدًا لدرجة أن كلا الجانبين كانا مرئيين بشكل متساوٍ، قمت بتكرار الطبقة، وتطبيق ضباب ثقيل لعزل النص الشبح، وطرحتها من الأصل. هذا يدخل في مجال الترميم اليدوي، لكن بالنسبة لخمسة أو ستة أحرف الأسوأ من بين ثمانين، كان الأمر يستحق الجهد.
أنهيت رقمنة جميع الثمانين رسالة في حوالي ثلاثة عطلات نهاية الأسبوع. جعلت التحسينات التي أُدخلت بواسطة الذكاء الاصطناعي معظمها قابلاً للقراءة. حوّل التعرف الضوئي على الحروف (OCR) الصور القابلة للقراءة إلى نص قابل للبحث. كان العمل اليدوي يتمثل في التحقق من الأسماء والتواريخ والأماكن. رسائل جدتي أصبحت الآن ملف PDF قابل للبحث يمتلك نسخاً منه كل أفراد عائلتي. كانت النسخ الأصلية الممسوحة ضوئياً شبه غير قابلة للاستخدام. النسخ المحسنة أعادتها للحياة.