Robust Arabic and Pashto Text Detection in Camera-Captured Documents Using Deep Learning Techniques
Creators
- 1. Mirpur University of Science and Technology
- 2. Shaheed Benazir Bhutto University
- 3. University of Malakand
- 4. Information Technology University
- 5. Al Ain University of Science and Technology
- 6. Princess Nourah bint Abdulrahman University
Description
In the realm of Document Image Analysis (DIA), the primary objective is to transform image data into a format that can be readily interpreted by machines. Within a DIA-based system, layout analysis plays a crucial role in pre-processing, for the identification and extraction of precise and error-free textual segments. However, regarding the Pashto language, the document images are not explored so far. Pashto text detection in camera-captured documents is a challenging task due to variations in image quality, lighting conditions, complex backgrounds unavailability of labeled documents, cursiveness, shape-context dependency, multi scripts per image, and language-specific layouts. This research examines the case of Pashto and Arabic text and contributes in two aspects. First, it introduces the creation of a real dataset that contains 1080 images of the Pashto documents captured by a handheld camera. Second, this work examines deep learning based classifiers that can perform layout analysis tasks and detects Pashto and Arabic text per document. For the layout classification, we used deep learning models such as Single-Shot Detector (SSD), Yolov5 and Yolov7. A baseline results are achieved by examining 30% images as a test set and achieve a mean average precision (mAP) of 84.51% on SSD, 88.50% on Yolov5 and 91.30% on Yolov7 respectively. The proposed methods have the potential to contribute to various applications, such as document analysis, information retrieval, and translation, for Pashto and Arabic language users.
Translated Descriptions
Translated Description (Arabic)
في مجال تحليل صورة المستند (DIA)، يتمثل الهدف الأساسي في تحويل بيانات الصورة إلى تنسيق يمكن تفسيره بسهولة بواسطة الآلات. ضمن نظام قائم على تقييم الأثر الدفاعي، يلعب تحليل التخطيط دورًا حاسمًا في المعالجة المسبقة، لتحديد واستخراج المقاطع النصية الدقيقة والخالية من الأخطاء. ومع ذلك، فيما يتعلق بلغة الباشتو، لا يتم استكشاف صور المستندات حتى الآن. يعد اكتشاف نص الباشتو في المستندات الملتقطة بالكاميرا مهمة صعبة بسبب الاختلافات في جودة الصورة وظروف الإضاءة والخلفيات المعقدة وعدم توفر المستندات المسماة والرسومات والتبعية في سياق الشكل والنصوص المتعددة لكل صورة والتخطيطات الخاصة باللغة. يبحث هذا البحث في حالة النص الباشتوني والعربي ويساهم في جانبين. أولاً، يقدم إنشاء مجموعة بيانات حقيقية تحتوي على 1080 صورة لمستندات الباشتو التي تم التقاطها بواسطة كاميرا محمولة باليد. ثانيًا، يفحص هذا العمل المصنفات القائمة على التعلم العميق التي يمكنها أداء مهام تحليل التخطيط واكتشاف النص الباشتو والعربية لكل مستند. بالنسبة لتصنيف التخطيط، استخدمنا نماذج التعلم العميق مثل كاشف اللقطة الواحدة (SSD) و Yolov5 و Yolov7. يتم تحقيق نتائج خط الأساس من خلال فحص 30 ٪ من الصور كمجموعة اختبار وتحقيق متوسط دقة (mAP) يبلغ 84.51 ٪ على SSD و 88.50 ٪ على Yolov5 و 91.30 ٪ على Yolov7 على التوالي. الأساليب المقترحة لديها القدرة على المساهمة في مختلف التطبيقات، مثل تحليل الوثائق، واسترجاع المعلومات، والترجمة، لمستخدمي الباشتو واللغة العربية.Translated Description (French)
Dans le domaine de l'analyse d'image de document (DIA), l'objectif principal est de transformer les données d'image en un format qui peut être facilement interprété par les machines. Au sein d'un système basé sur dia, l'analyse de mise en page joue un rôle crucial dans le prétraitement, pour l'identification et l'extraction de segments textuels précis et sans erreur. Cependant, en ce qui concerne la langue pachtoune, les images du document ne sont pas explorées jusqu'à présent. La détection de texte pachto dans les documents capturés par caméra est une tâche difficile en raison des variations de la qualité de l'image, des conditions d'éclairage, des arrière-plans complexes, de l'indisponibilité des documents étiquetés, de la courbure, de la dépendance forme-contexte, des scripts multiples par image et des mises en page spécifiques à la langue. Cette recherche examine le cas du pachtou et du texte arabe et contribue sous deux aspects. Tout d'abord, il introduit la création d'un ensemble de données réelles qui contient 1080 images des documents Pachto capturés par une caméra portable. Deuxièmement, ce travail examine les classificateurs basés sur l'apprentissage profond qui peuvent effectuer des tâches d'analyse de mise en page et détecter le texte pachtou et arabe par document. Pour la classification de mise en page, nous avons utilisé des modèles d'apprentissage profond tels que Single-Shot Detector (SSD), Yolov5 et Yolov7. Les résultats de base sont obtenus en examinant 30 % des images comme ensemble de test et en obtenant une précision moyenne (mAP) de 84,51 % sur SSD, 88,50 % sur Yolov5 et 91,30 % sur Yolov7 respectivement. Les méthodes proposées ont le potentiel de contribuer à diverses applications, telles que l'analyse de documents, la récupération d'informations et la traduction, pour les utilisateurs du pachtou et de la langue arabe.Translated Description (Spanish)
En el ámbito del análisis de imágenes de documentos (DIA), el objetivo principal es transformar los datos de imagen en un formato que pueda ser interpretado fácilmente por las máquinas. Dentro de un sistema basado en dia, el análisis de diseño juega un papel crucial en el preprocesamiento, para la identificación y extracción de segmentos textuales precisos y sin errores. Sin embargo, con respecto al idioma pashto, las imágenes del documento no se exploran hasta ahora. La detección de texto pastún en documentos capturados con cámara es una tarea desafiante debido a las variaciones en la calidad de la imagen, las condiciones de iluminación, la falta de disponibilidad de fondos complejos de documentos etiquetados, la cursividad, la dependencia de la forma y el contexto, los scripts múltiples por imagen y los diseños específicos del idioma. Esta investigación examina el caso del texto pashto y árabe y contribuye en dos aspectos. En primer lugar, introduce la creación de un conjunto de datos real que contiene 1080 imágenes de los documentos pashto capturados por una cámara de mano. En segundo lugar, este trabajo examina los clasificadores basados en el aprendizaje profundo que pueden realizar tareas de análisis de diseño y detecta texto en pastún y árabe por documento. Para la clasificación del diseño, utilizamos modelos de aprendizaje profundo como Single-Shot Detector (SSD), Yolov5 y Yolov7. Los resultados iniciales se logran examinando el 30% de las imágenes como un conjunto de pruebas y logran una precisión media (mAP) del 84,51% en SSD, 88,50% en Yolov5 y 91,30% en Yolov7, respectivamente. Los métodos propuestos tienen el potencial de contribuir a diversas aplicaciones, como el análisis de documentos, la recuperación de información y la traducción, para usuarios de pashto y árabe.Files
10328604.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:1d44a7be2f75841101a6217d7f52f2af
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- كشف قوي للنص العربي والباشتو في المستندات الملتقطة بالكاميرا باستخدام تقنيات التعلم العميق
- Translated title (French)
- Détection de texte arabe et pachtoune robuste dans les documents capturés par caméra à l'aide de techniques d'apprentissage approfondi
- Translated title (Spanish)
- Detección robusta de texto árabe y pastún en documentos capturados con cámara utilizando técnicas de aprendizaje profundo
Identifiers
- Other
- https://openalex.org/W4388936645
- DOI
- 10.1109/access.2023.3336404
References
- https://openalex.org/W1536680647
- https://openalex.org/W1620833456
- https://openalex.org/W2027557568
- https://openalex.org/W2045473784
- https://openalex.org/W2096210305
- https://openalex.org/W2111804574
- https://openalex.org/W2112692009
- https://openalex.org/W2119306545
- https://openalex.org/W2126727781
- https://openalex.org/W2133057513
- https://openalex.org/W2141204820
- https://openalex.org/W2163630989
- https://openalex.org/W2166492534
- https://openalex.org/W2200736738
- https://openalex.org/W2406727294
- https://openalex.org/W2541589644
- https://openalex.org/W2557728737
- https://openalex.org/W2578032986
- https://openalex.org/W2762155040
- https://openalex.org/W2787579211
- https://openalex.org/W2962835968
- https://openalex.org/W3106250896
- https://openalex.org/W3144326055
- https://openalex.org/W3193379171
- https://openalex.org/W4205758503
- https://openalex.org/W4220792997
- https://openalex.org/W4225678899
- https://openalex.org/W4251704781
- https://openalex.org/W4318464214
- https://openalex.org/W4386076325