Segmentation-free optical character recognition for printed Urdu text
Description
This paper presents a segmentation-free optical character recognition system for printed Urdu Nastaliq font using ligatures as units of recognition. The proposed technique relies on statistical features and employs Hidden Markov Models for classification. A total of 1525 unique high-frequency Urdu ligatures from the standard Urdu Printed Text Images (UPTI) database are considered in our study. Ligatures extracted from text lines are first split into primary (main body) and secondary (dots and diacritics) ligatures and multiple instances of the same ligature are grouped into clusters using a sequential clustering algorithm. Hidden Markov Models are trained separately for each ligature using the examples in the respective cluster by sliding right-to-left the overlapped windows and extracting a set of statistical features. Given the query text, the primary and secondary ligatures are separately recognized and later associated together using a set of heuristics to recognize the complete ligature. The system evaluated on the standard UPTI Urdu database reported a ligature recognition rate of 92% on more than 6000 query ligatures.
Translated Descriptions
Translated Description (Arabic)
تقدم هذه الورقة البحثية نظامًا للتعرف البصري على الأحرف خالٍ من التجزئة للخط الأردوي Nastaliq المطبوع باستخدام الأربطة كوحدات للتعرف. تعتمد التقنية المقترحة على السمات الإحصائية وتستخدم نماذج ماركوف المخفية للتصنيف. يتم النظر في ما مجموعه 1525 رباطًا أردويًا فريدًا عالي التردد من قاعدة بيانات الصور النصية المطبوعة بالأردية (UPTI) القياسية في دراستنا. تنقسم الأربطة المستخرجة من أسطر النص أولاً إلى أربطة أولية (الجسم الرئيسي) وثانوية (النقاط والشكل) ويتم تجميع حالات متعددة من نفس الأربطة في مجموعات باستخدام خوارزمية تجميع متتابعة. يتم تدريب نماذج ماركوف المخفية بشكل منفصل لكل رباط باستخدام الأمثلة الموجودة في المجموعة المعنية عن طريق تحريك النوافذ المتداخلة من اليمين إلى اليسار واستخراج مجموعة من الميزات الإحصائية. بالنظر إلى نص الاستعلام، يتم التعرف على الأربطة الأولية والثانوية بشكل منفصل وربطها لاحقًا معًا باستخدام مجموعة من الاستدلال للتعرف على الرباط الكامل. أبلغ النظام الذي تم تقييمه على قاعدة بيانات UPTI الأردية القياسية عن معدل التعرف على الأربطة بنسبة 92 ٪ على أكثر من 6000 ربطة استعلام.Translated Description (French)
Cet article présente un système de reconnaissance optique de caractères sans segmentation pour la police Urdu Nastaliq imprimée utilisant des ligatures comme unités de reconnaissance. La technique proposée repose sur des caractéristiques statistiques et utilise des modèles de Markov cachés pour la classification. Au total, 1 525 ligatures urdu à haute fréquence uniques provenant de la base de données standard Urdu Printed Text Images (UPTI) sont prises en compte dans notre étude. Les ligatures extraites des lignes de texte sont d'abord divisées en ligatures primaires (corps principal) et secondaires (points et diacritiques) et plusieurs instances de la même ligature sont regroupées en grappes à l'aide d'un algorithme de regroupement séquentiel. Les modèles de Markov cachés sont formés séparément pour chaque ligature en utilisant les exemples dans le cluster respectif en faisant glisser de droite à gauche les fenêtres qui se chevauchent et en extrayant un ensemble de caractéristiques statistiques. Compte tenu du texte de la requête, les ligatures primaire et secondaire sont reconnues séparément et associées ultérieurement à l'aide d'un ensemble d'heuristiques pour reconnaître la ligature complète. Le système évalué sur la base de données standard UPTI Urdu a rapporté un taux de reconnaissance des ligatures de 92% sur plus de 6000 ligatures de requête.Translated Description (Spanish)
Este documento presenta un sistema de reconocimiento óptico de caracteres sin segmentación para la fuente impresa Urdu Nastaliq utilizando ligaduras como unidades de reconocimiento. La técnica propuesta se basa en características estadísticas y emplea modelos ocultos de Markov para la clasificación. En nuestro estudio se consideran un total de 1525 ligaduras únicas en urdu de alta frecuencia de la base de datos estándar de Imágenes de Texto Impreso en Urdu (UPTI). Las ligaduras extraídas de las líneas de texto se dividen primero en ligaduras primarias (cuerpo principal) y secundarias (puntos y signos diacríticos) y varias instancias de la misma ligadura se agrupan en grupos utilizando un algoritmo de agrupación secuencial. Los modelos ocultos de Markov se entrenan por separado para cada ligadura utilizando los ejemplos del grupo respectivo deslizando de derecha a izquierda las ventanas superpuestas y extrayendo un conjunto de características estadísticas. Dado el texto de consulta, las ligaduras primarias y secundarias se reconocen por separado y luego se asocian utilizando un conjunto de heurísticas para reconocer la ligadura completa. El sistema evaluado en la base de datos UPTI Urdu estándar informó una tasa de reconocimiento de ligaduras del 92% en más de 6000 ligaduras de consulta.Files
s13640-017-0208-z.pdf
Files
(6.3 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:3e11a5be590ef1a35042360d0d58ec47
|
6.3 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- التعرف البصري على الأحرف بدون تجزئة للنص الأردوي المطبوع
- Translated title (French)
- Reconnaissance optique de caractères sans segmentation pour le texte en ourdou imprimé
- Translated title (Spanish)
- Reconocimiento óptico de caracteres sin segmentación para texto en urdu impreso
Identifiers
- Other
- https://openalex.org/W2753236292
- DOI
- 10.1186/s13640-017-0208-z
References
- https://openalex.org/W1138884437
- https://openalex.org/W1966917421
- https://openalex.org/W1970246874
- https://openalex.org/W2004389124
- https://openalex.org/W2006789516
- https://openalex.org/W2009444210
- https://openalex.org/W2021820699
- https://openalex.org/W2035729865
- https://openalex.org/W2039903200
- https://openalex.org/W2040750724
- https://openalex.org/W2051234496
- https://openalex.org/W2055783626
- https://openalex.org/W2084257471
- https://openalex.org/W2117153340
- https://openalex.org/W2117815022
- https://openalex.org/W2133552271
- https://openalex.org/W2134029751
- https://openalex.org/W2137496713
- https://openalex.org/W2140090592
- https://openalex.org/W2143453942
- https://openalex.org/W2146507164
- https://openalex.org/W2157057015
- https://openalex.org/W2159498975
- https://openalex.org/W2169160225
- https://openalex.org/W2283697398
- https://openalex.org/W2287185936
- https://openalex.org/W2434079478
- https://openalex.org/W2545679388
- https://openalex.org/W4244214432
- https://openalex.org/W4252331534