A deep learning based approach for extracting Arabic handwriting: applied calligraphy and old cursive
Creators
- 1. Université Constantine 2
- 2. Taylor's University
- 3. University of Sharjah
Description
Based on the results of this research, a new method for separating Arabic offline text is presented. This method finds the core splitter between the "Middle" and "Lower" zones by looking for sharp character degeneration in those zones. With the exception of script localization and the essential feature of determining which direction a starting point is pointing, the baseline also functions as a delimiter for horizontal projections. Despite the fact that the bottom half of the characteristics is utilized to differentiate the modifiers in zones, the top half of the characteristics is not. This method works best when the baseline is able to divide features into the bottom zone and the middle zone in a complex pattern where it is hard to find the alphabet, like in ancient scripts. Furthermore, this technique performed well when it came to distinguishing Arabic text, including calligraphy. With the zoning system, the aim is to decrease the number of different element classes that are associated with the total number of alphabets used in Arabic cursive writing. The components are identified using the pixel value origin and center reign (CR) technique, which is combined with letter morphology to achieve complete word-level identification. Using the upper baseline and lower baseline together, this proposed technique produces a consistent Arabic pattern, which is intended to improve identification rates by increasing the number of matches. For Mediterranean keywords (cities in Algeria and Tunisia), the suggested approach makes use of indicators that the correctness of the Othmani and Arabic scripts is greater than 98.14 percent and 90.16 percent, respectively, based on 84 and 117 verses. As a consequence of the auditing method and the assessment section's structure and software, the major problems were identified, with a few of them being specifically highlighted.
Translated Descriptions
Translated Description (Arabic)
بناءً على نتائج هذا البحث، يتم تقديم طريقة جديدة لفصل النص العربي غير المتصل بالإنترنت. تجد هذه الطريقة الفاصل الأساسي بين المنطقتين "الوسطى" و "السفلية" من خلال البحث عن تنكس حاد للشخصية في تلك المناطق. باستثناء توطين النص والميزة الأساسية لتحديد الاتجاه الذي تشير إليه نقطة البداية، يعمل خط الأساس أيضًا كمحدد للإسقاطات الأفقية. على الرغم من حقيقة أن النصف السفلي من الخصائص يستخدم للتمييز بين المعدلات في المناطق، إلا أن النصف العلوي من الخصائص ليس كذلك. تعمل هذه الطريقة بشكل أفضل عندما يكون خط الأساس قادرًا على تقسيم الميزات إلى المنطقة السفلية والمنطقة الوسطى في نمط معقد حيث يصعب العثور على الأبجدية، كما هو الحال في النصوص القديمة. علاوة على ذلك، كان أداء هذه التقنية جيدًا عندما يتعلق الأمر بتمييز النص العربي، بما في ذلك الخط العربي. مع نظام تقسيم المناطق، الهدف هو تقليل عدد فئات العناصر المختلفة المرتبطة بالعدد الإجمالي للحروف الهجائية المستخدمة في الكتابة المخطوطة العربية. يتم تحديد المكونات باستخدام تقنية أصل قيمة البكسل والحكم المركزي (CR)، والتي يتم دمجها مع مورفولوجيا الحروف لتحقيق تحديد كامل على مستوى الكلمة. باستخدام خط الأساس العلوي وخط الأساس السفلي معًا، تنتج هذه التقنية المقترحة نمطًا عربيًا ثابتًا، يهدف إلى تحسين معدلات تحديد الهوية من خلال زيادة عدد التطابقات. بالنسبة للكلمات الرئيسية المتوسطية (مدن في الجزائر وتونس)، يستخدم النهج المقترح مؤشرات على أن صحة الخطين العثماني والعربي أكبر من 98.14 في المائة و 90.16 في المائة، على التوالي، بناءً على 84 و 117 آية. نتيجة لطريقة التدقيق وهيكل قسم التقييم وبرامجه، تم تحديد المشاكل الرئيسية، مع تسليط الضوء على عدد قليل منها على وجه التحديد.Translated Description (French)
Sur la base des résultats de cette recherche, une nouvelle méthode de séparation du texte arabe hors ligne est présentée. Cette méthode trouve le séparateur de noyau entre les zones « Milieu » et « Inférieur » en recherchant une dégénérescence de caractère nette dans ces zones. À l'exception de la localisation des scripts et de la caractéristique essentielle de déterminer la direction dans laquelle pointe un point de départ, la ligne de base fonctionne également comme un délimiteur pour les projections horizontales. Malgré le fait que la moitié inférieure des caractéristiques est utilisée pour différencier les modificateurs dans les zones, la moitié supérieure des caractéristiques ne l'est pas. Cette méthode fonctionne mieux lorsque la ligne de base est capable de diviser les caractéristiques dans la zone du bas et la zone du milieu dans un motif complexe où il est difficile de trouver l'alphabet, comme dans les écritures anciennes. De plus, cette technique s'est bien comportée lorsqu'il s'agissait de distinguer le texte arabe, y compris la calligraphie. Avec le système de zonage, l'objectif est de diminuer le nombre de classes d'éléments différentes associées au nombre total d'alphabets utilisés dans l'écriture cursive arabe. Les composants sont identifiés à l'aide de la technique de l'origine de la valeur des pixels et du règne central (CR), qui est combinée à la morphologie des lettres pour obtenir une identification complète au niveau des mots. En utilisant la ligne de base supérieure et la ligne de base inférieure ensemble, cette technique proposée produit un modèle arabe cohérent, qui vise à améliorer les taux d'identification en augmentant le nombre de correspondances. Pour les mots-clés méditerranéens (villes d'Algérie et de Tunisie), l'approche suggérée utilise des indicateurs indiquant que l'exactitude des écritures othmani et arabe est supérieure à 98,14% et 90,16%, respectivement, sur la base de 84 et 117 versets. À la suite de la méthode d'audit et de la structure et du logiciel de la section d'évaluation, les principaux problèmes ont été identifiés, certains d'entre eux étant spécifiquement mis en évidence.Translated Description (Spanish)
A partir de los resultados de esta investigación, se presenta un nuevo método para separar el texto árabe fuera de línea. Este método encuentra el divisor central entre las zonas "Media" e "Inferior" buscando una fuerte degeneración de caracteres en esas zonas. Con la excepción de la localización de guiones y la característica esencial de determinar en qué dirección está apuntando un punto de partida, la línea de base también funciona como un delimitador para las proyecciones horizontales. A pesar de que la mitad inferior de las características se utiliza para diferenciar los modificadores en zonas, la mitad superior de las características no lo es. Este método funciona mejor cuando la línea de base es capaz de dividir las características en la zona inferior y la zona media en un patrón complejo donde es difícil encontrar el alfabeto, como en las escrituras antiguas. Además, esta técnica funcionó bien a la hora de distinguir el texto árabe, incluida la caligrafía. Con el sistema de zonificación, el objetivo es disminuir el número de diferentes clases de elementos que están asociados con el número total de alfabetos utilizados en la escritura cursiva árabe. Los componentes se identifican utilizando la técnica de origen de valor de píxel y reinado central (CR), que se combina con la morfología de las letras para lograr una identificación completa a nivel de palabra. Utilizando la línea de base superior y la línea de base inferior juntas, esta técnica propuesta produce un patrón árabe consistente, que tiene la intención de mejorar las tasas de identificación al aumentar el número de coincidencias. Para las palabras clave mediterráneas (ciudades de Argelia y Túnez), el enfoque sugerido hace uso de indicadores de que la corrección de las escrituras othmani y árabe es mayor que 98.14 por ciento y 90.16 por ciento, respectivamente, en base a 84 y 117 versículos. Como consecuencia del método de auditoría y de la estructura y software de la sección de evaluación, se identificaron los principales problemas, destacando específicamente algunos de ellos.Additional details
Additional titles
- Translated title (Arabic)
- نهج قائم على التعلم العميق لاستخراج الخط العربي: الخط التطبيقي والخط القديم
- Translated title (French)
- Une approche basée sur l'apprentissage en profondeur pour extraire l'écriture arabe : calligraphie appliquée et vieille cursive
- Translated title (Spanish)
- Un enfoque basado en el aprendizaje profundo para extraer la escritura árabe: caligrafía aplicada y cursiva antigua
Identifiers
- Other
- https://openalex.org/W4389788640
- DOI
- 10.7717/peerj-cs.1465
References
- https://openalex.org/W1969222105
- https://openalex.org/W1987122909
- https://openalex.org/W1993312227
- https://openalex.org/W2003910950
- https://openalex.org/W2004089144
- https://openalex.org/W2018813195
- https://openalex.org/W2019803582
- https://openalex.org/W2029996593
- https://openalex.org/W2033801164
- https://openalex.org/W2034668594
- https://openalex.org/W2038235322
- https://openalex.org/W2051284700
- https://openalex.org/W2065516822
- https://openalex.org/W2075037363
- https://openalex.org/W2076431653
- https://openalex.org/W2081738556
- https://openalex.org/W2091163942
- https://openalex.org/W2105437767
- https://openalex.org/W2105518985
- https://openalex.org/W2118902001
- https://openalex.org/W2130391210
- https://openalex.org/W2175298729
- https://openalex.org/W2234759184
- https://openalex.org/W2260124865
- https://openalex.org/W2283494663
- https://openalex.org/W2359126565
- https://openalex.org/W2475432778
- https://openalex.org/W2524784692
- https://openalex.org/W2596482273
- https://openalex.org/W2743674619
- https://openalex.org/W2745463021
- https://openalex.org/W2782230926
- https://openalex.org/W4210360336