A Zone Classification Approach for Arabic Documents using Hybrid Features
Creators
- 1. Cairo University
- 2. King Abdulaziz University
Description
Zone segmentation and classification is an important step in document layout analysis.It decomposes a given scanned document into zones.Zones need to be classified into text and non-text, so that only text zones are provided to a recognition engine.This eliminates garbage output resulting from sending non-text zones to the engine.This paper proposes a framework for zone segmentation and classification.Zones are segmented using morphological operation and connected component analysis.Features are then extracted from each zone for the purpose of classification into text and non-text.Features are hybrid between texture-based and connected component based features.Effective features are selected using genetic algorithm.Selected features are fed into a linear SVM classifier for zone classification.System evaluation shows that the proposed zone classification works well on multi-font and multisize documents with a variety of layouts even on historical documents.
Translated Descriptions
Translated Description (Arabic)
يعد تقسيم المنطقة وتصنيفها خطوة مهمة في تحليل تخطيط المستند. فهو يحلل مستندًا ممسوحًا معينًا إلى مناطق. يجب تصنيف المناطق إلى نصوص وغير نصية، بحيث يتم توفير مناطق نصية فقط لمحرك التعرف. هذا يلغي ناتج القمامة الناتج عن إرسال مناطق غير نصية إلى المحرك. تقترح هذه الورقة إطارًا لتقسيم المنطقة وتصنيفها. يتم تقسيم المناطق باستخدام التشغيل المورفولوجي وتحليل المكونات المتصلة. ثم يتم استخراج الميزات من كل منطقة لغرض التصنيف إلى نص وغير نصية. الميزات هجينة بين الميزات القائمة على الملمس والمكونات المتصلة. يتم اختيار الميزات الفعالة باستخدام الخوارزمية الوراثية. يتم إدخال الميزات المحددة في مصنف SVM الخطي لتصنيف المنطقة. يوضح تقييم النظام أن تصنيف المنطقة المقترح يعمل بشكل جيد على المستندات متعددة الخطوط ومتعددة الأحجام مع مجموعة متنوعة من التخطيطات حتى على المستندات التاريخية.Translated Description (French)
La segmentation et la classification des zones sont une étape importante dans l'analyse de la mise en page des documents. Elles décomposent un document numérisé donné en zones. Les zones doivent être classées en texte et en non-texte, de sorte que seules les zones de texte soient fournies à un moteur de reconnaissance. Cela élimine la production de déchets résultant de l'envoi de zones non textuelles au moteur. Cet article propose un cadre pour la segmentation et la classification des zones. Les zones sont segmentées à l'aide d'une opération morphologique et d'une analyse des composants connectés. Les caractéristiques sont ensuite extraites de chaque zone à des fins de classification en texte et en non-texte. Les caractéristiques sont hybrides entre les caractéristiques basées sur la texture et les caractéristiques basées sur les composants connectés. Les caractéristiques efficaces sont sélectionnées à l'aide d'un algorithme génétique. Les caractéristiques sélectionnées sont introduites dans un classificateur SVM linéaire pour la classification des zones. L'évaluation du système montre que la classification des zones proposée fonctionne bien sur des documents multi-fontes et multi-tailles avec une variété de mises en page, même sur des documents historiques.Translated Description (Spanish)
La segmentación y clasificación de zonas es un paso importante en el análisis de diseño de documentos. Descompone un documento escaneado dado en zonas. Las zonas deben clasificarse en texto y no texto, de modo que solo se proporcionen zonas de texto a un motor de reconocimiento. Esto elimina la salida de basura resultante del envío de zonas no textuales al motor. Este documento propone un marco para la segmentación y clasificación de zonas. Las zonas se segmentan utilizando una operación morfológica y un análisis de componentes conectados. Las características se extraen de cada zona con el fin de clasificarlas en texto y no texto. Las características son híbridas entre características basadas en textura y basadas en componentes conectados. Las características efectivas se seleccionan utilizando un algoritmo genético. Las características seleccionadas se introducen en un clasificador SVM lineal para la clasificación de zonas. La evaluación del sistema muestra que la clasificación de zonas propuesta funciona bien en documentos de múltiples fuentes y múltiples tamaños con una variedad de diseños incluso en documentos históricos.Files
      
        Paper_22-A_Zone_Classification_Approach_for_Arabic_Documents.pdf.pdf
        
      
    
    
      
        Files
         (1.0 MB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:85055eb2ede3042c7ca539de68ea7b86 | 1.0 MB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- نهج تصنيف المنطقة للوثائق العربية باستخدام الميزات الهجينة
- Translated title (French)
- Une approche de classification de zone pour les documents arabes utilisant des fonctionnalités hybrides
- Translated title (Spanish)
- Un enfoque de clasificación de zonas para documentos árabes utilizando funciones híbridas
Identifiers
- Other
- https://openalex.org/W2475432778
- DOI
- 10.14569/ijacsa.2016.070722
            
              References
            
          
        - https://openalex.org/W1491852184
- https://openalex.org/W1541814010
- https://openalex.org/W1837385667
- https://openalex.org/W1971593881
- https://openalex.org/W2005008005
- https://openalex.org/W2006947050
- https://openalex.org/W2028180100
- https://openalex.org/W2055408294
- https://openalex.org/W2085361026
- https://openalex.org/W2091171890
- https://openalex.org/W2102633905
- https://openalex.org/W2111804574
- https://openalex.org/W2135164809
- https://openalex.org/W2135190479
- https://openalex.org/W2138044764
- https://openalex.org/W2153635508
- https://openalex.org/W2161114053
- https://openalex.org/W2161139839
- https://openalex.org/W2163534337
- https://openalex.org/W2184798753
- https://openalex.org/W2327015391
- https://openalex.org/W2488822897