ما هو التعرف الضوئي على الأحرف (OCR) وكيف يعمل؟

تمسح مستندًا ضوئيًا أو تلتقط صورة لصفحة مطبوعة، فتحصل على ملف صورة. يبدو كنص، لكن بالنسبة للحاسوب، هو مجرد بكسلات -- صفوف وصفوف من بيانات الألوان بدون فهم للحروف أو الكلمات أو المعاني التي تمثلها. التعرف الضوئي على الأحرف، المعروف عالميًا بـ OCR، هو التقنية التي تسد هذه الفجوة. يحلل الأشكال في صورة ويحولها إلى أحرف نصية فعلية يمكنك البحث فيها وتحديدها ونسخها وتحريرها وترجمتها.

نبذة تاريخية عن OCR

يعود مفهوم قراءة الآلات للنص إلى بدايات القرن العشرين، لكن تقنية OCR العملية ظهرت في الستينيات والسبعينيات عندما اكتسبت حواسيب الإطار الرئيسي قوة معالجة كافية لتحليل الصور الممسوحة. الأنظمة المبكرة كانت تستطيع قراءة خطوط آلة كاتبة محددة فقط وتتطلب جودة صورة مثالية. بحلول التسعينيات، أصبح بإمكان برامج OCR التجارية مثل OmniPage وABBYY FineReader التعامل مع خطوط متعددة بدقة معقولة. اليوم، دفع التعلم الآلي والشبكات العصبية دقة OCR لتتجاوز 99 بالمئة للنص المطبوع النظيف، ويمكن للأنظمة الحديثة التعامل حتى مع الكتابة اليدوية والنص المنحني على ملصقات المنتجات والنص في صور ملتقطة بزوايا غريبة.

كيف يعمل OCR: العملية التقنية

1. معالجة الصورة المسبقة

قبل تحليل النص، ينظف برنامج OCR الصورة. يشمل ذلك تحويلها إلى تدرج رمادي وضبط السطوع والتباين وإزالة الضوضاء (البقع والتلطخات والأنماط الخلفية) وتقويم أي ميل أو دوران. المعالجة المسبقة الجيدة حاسمة -- مسح مائل قليلًا أو ظل عبر الصفحة يمكن أن يقلل الدقة بشكل كبير إذا لم يتم تصحيحه أولًا.

2. تحليل التخطيط

يحدد البرنامج بنية الصفحة: أين الأعمدة والعناوين والفقرات والصور والجداول والتعليقات التوضيحية؟ هذه الخطوة تمنع محرك OCR من محاولة قراءة صورة فوتوغرافية كنص أو دمج عمودين في سطر واحد مشوش.

3. تقطيع الأحرف

يتم تقسيم كل سطر نصي إلى أحرف فردية. للغات ذات المسافات الواضحة بين الحروف (مثل الإنجليزية)، هذا بسيط نسبيًا. للنصوص المتصلة (مثل العربية أو الكتابة المتصلة)، يكون التقطيع أكثر تحديًا ويعتمد بشكل كبير على التحليل السياقي.

4. التعرف على الأحرف

هذا هو جوهر OCR. يُقارن كل حرف مقطّع بقاعدة بيانات لأشكال الأحرف المعروفة. تستخدم الأنظمة الحديثة الشبكات العصبية التلافيفية (CNNs) التي دُرّبت على ملايين عينات النصوص، مما يمكّنها من التعرف على الأحرف حتى عندما تكون محجوبة جزئيًا أو بأسلوب غير معتاد أو متدهورة. يولّد النظام درجة ثقة لكل حرف -- أي مدى تأكده من أن شكلًا معينًا هو "A" مقابل "H".

5. المعالجة اللاحقة

يُحسّن النص المُتعرّف عليه باستخدام القواميس والنماذج اللغوية. إذا كان محرك OCR واثقًا بنسبة 60 بالمئة أن كلمة ما هي "hcuse" وبنسبة 40 بالمئة أنها "house"، فإن النموذج اللغوي يدرك أن "house" كلمة إنجليزية صالحة و"hcuse" ليست كذلك، ويختار التفسير الصحيح. هذه الخطوة تلتقط العديد من الأخطاء التي كان التعرف الشكلي البحت سيفوتها.

ما الذي يمكن استخدام OCR له؟

جعل المستندات الممسوحة قابلة للبحث. بعد تشغيل OCR، يمكنك استخدام بحث نظام التشغيل للعثور على كلمة محددة عبر آلاف الصفحات الممسوحة. هذا يحول أرشيفًا ثابتًا إلى قاعدة بيانات قابلة للبحث.
رقمنة الكتب والمقالات المطبوعة. تستخدم المكتبات والناشرون OCR لتحويل الكتب المادية إلى كتب إلكترونية وأرشيفات رقمية قابلة للبحث.
استخراج البيانات من الإيصالات والفواتير. تستخدم تطبيقات تتبع النفقات OCR لقراءة الإجماليات والتواريخ وأسماء البائعين من صور الإيصالات، مما يلغي إدخال البيانات يدويًا.
قراءة النص في الصور. تستخدم تطبيقات الترجمة OCR لتحديد النص في اللافتات والقوائم وملصقات المنتجات، ثم ترجمته في الوقت الفعلي.
معالجة النماذج والطلبات. تستخدم الوكالات الحكومية وشركات التأمين OCR لاستخراج البيانات من النماذج المكتوبة بخط اليد والمطبوعة، مما يسرع أوقات المعالجة من أيام إلى دقائق.
إمكانية الوصول. يمكن لقارئات الشاشة قراءة النص المعالج بـ OCR بصوت عالٍ، مما يجعل المستندات الممسوحة متاحة للأشخاص ذوي الإعاقات البصرية.

قيود OCR

OCR ليس مثاليًا. تنخفض الدقة بشكل كبير مع:

جودة صورة رديئة. المسوحات الضبابية أو المظلمة أو منخفضة الدقة تربك محرك التعرف على الأحرف.
الكتابة اليدوية. بينما يمكن لـ OCR الحديث التعامل مع الكتابة اليدوية المرتبة بدقة معتدلة، تبقى الكتابة الفوضوية أو المنمقة بشدة تحديًا.
التخطيطات المعقدة. المستندات ذات الأعمدة المتعددة أو النص فوق الصور أو التنسيق غير المعتاد يمكن أن تربك تحليل التخطيط.
الخطوط غير المعتادة. الخطوط الزخرفية أو الرفيعة جدًا أو المنمقة بشدة تقلل دقة التعرف.
المستندات التالفة. المستندات المجعدة أو الملطخة أو الباهتة تفقد معلومات بصرية لا يستطيع OCR استعادتها.

نصائح للحصول على أفضل نتائج OCR

امسح ضوئيًا بدقة 300 DPI أو أعلى. الدقة المنخفضة تجعل حواف الأحرف ضبابية وغامضة.
تأكد من إضاءة متساوية وساطعة عند تصوير المستندات. الظلال عبر النص تقلل الدقة.
حافظ على الكاميرا موازية للمستند لتقليل تشوه المنظور.
استخدم فلتر مسح أبيض وأسود أو تدرج رمادي للمستندات النصية. معلومات الألوان غير ذات صلة بـ OCR وتضيف ضوضاء.
راجع مخرج OCR بحثًا عن أخطاء، خاصة لأسماء العلم والأرقام والمصطلحات التقنية التي قد لا تكون في القاموس اللغوي.

OCR على iPhone

iPhone هو جهاز OCR قوي. مع التطبيق المناسب، يمكنك مسح صفحة بالكاميرا والحصول على نص قابل للبحث والتحديد بالكامل في ثوانٍ. يجمع PDF Creator - Scanner & OCR بين ماسح مستندات عالي الجودة ومحرك OCR دقيق، محولًا أي مستند مادي إلى PDF قابل للبحث والتحرير. امسح ضوئيًا وتعرّف على النص وأدر مستنداتك في مكان واحد مع 29 أداة PDF احترافية في متناول يدك.