Published January 1, 2016 | Version v1
Publication Open

A Zone Classification Approach for Arabic Documents using Hybrid Features

  • 1. Cairo University
  • 2. King Abdulaziz University

Description

Zone segmentation and classification is an important step in document layout analysis.It decomposes a given scanned document into zones.Zones need to be classified into text and non-text, so that only text zones are provided to a recognition engine.This eliminates garbage output resulting from sending non-text zones to the engine.This paper proposes a framework for zone segmentation and classification.Zones are segmented using morphological operation and connected component analysis.Features are then extracted from each zone for the purpose of classification into text and non-text.Features are hybrid between texture-based and connected component based features.Effective features are selected using genetic algorithm.Selected features are fed into a linear SVM classifier for zone classification.System evaluation shows that the proposed zone classification works well on multi-font and multisize documents with a variety of layouts even on historical documents.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد تقسيم المنطقة وتصنيفها خطوة مهمة في تحليل تخطيط المستند. فهو يحلل مستندًا ممسوحًا معينًا إلى مناطق. يجب تصنيف المناطق إلى نصوص وغير نصية، بحيث يتم توفير مناطق نصية فقط لمحرك التعرف. هذا يلغي ناتج القمامة الناتج عن إرسال مناطق غير نصية إلى المحرك. تقترح هذه الورقة إطارًا لتقسيم المنطقة وتصنيفها. يتم تقسيم المناطق باستخدام التشغيل المورفولوجي وتحليل المكونات المتصلة. ثم يتم استخراج الميزات من كل منطقة لغرض التصنيف إلى نص وغير نصية. الميزات هجينة بين الميزات القائمة على الملمس والمكونات المتصلة. يتم اختيار الميزات الفعالة باستخدام الخوارزمية الوراثية. يتم إدخال الميزات المحددة في مصنف SVM الخطي لتصنيف المنطقة. يوضح تقييم النظام أن تصنيف المنطقة المقترح يعمل بشكل جيد على المستندات متعددة الخطوط ومتعددة الأحجام مع مجموعة متنوعة من التخطيطات حتى على المستندات التاريخية.

Translated Description (French)

La segmentation et la classification des zones sont une étape importante dans l'analyse de la mise en page des documents. Elles décomposent un document numérisé donné en zones. Les zones doivent être classées en texte et en non-texte, de sorte que seules les zones de texte soient fournies à un moteur de reconnaissance. Cela élimine la production de déchets résultant de l'envoi de zones non textuelles au moteur. Cet article propose un cadre pour la segmentation et la classification des zones. Les zones sont segmentées à l'aide d'une opération morphologique et d'une analyse des composants connectés. Les caractéristiques sont ensuite extraites de chaque zone à des fins de classification en texte et en non-texte. Les caractéristiques sont hybrides entre les caractéristiques basées sur la texture et les caractéristiques basées sur les composants connectés. Les caractéristiques efficaces sont sélectionnées à l'aide d'un algorithme génétique. Les caractéristiques sélectionnées sont introduites dans un classificateur SVM linéaire pour la classification des zones. L'évaluation du système montre que la classification des zones proposée fonctionne bien sur des documents multi-fontes et multi-tailles avec une variété de mises en page, même sur des documents historiques.

Translated Description (Spanish)

La segmentación y clasificación de zonas es un paso importante en el análisis de diseño de documentos. Descompone un documento escaneado dado en zonas. Las zonas deben clasificarse en texto y no texto, de modo que solo se proporcionen zonas de texto a un motor de reconocimiento. Esto elimina la salida de basura resultante del envío de zonas no textuales al motor. Este documento propone un marco para la segmentación y clasificación de zonas. Las zonas se segmentan utilizando una operación morfológica y un análisis de componentes conectados. Las características se extraen de cada zona con el fin de clasificarlas en texto y no texto. Las características son híbridas entre características basadas en textura y basadas en componentes conectados. Las características efectivas se seleccionan utilizando un algoritmo genético. Las características seleccionadas se introducen en un clasificador SVM lineal para la clasificación de zonas. La evaluación del sistema muestra que la clasificación de zonas propuesta funciona bien en documentos de múltiples fuentes y múltiples tamaños con una variedad de diseños incluso en documentos históricos.

Files

Paper_22-A_Zone_Classification_Approach_for_Arabic_Documents.pdf.pdf

Files (1.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:85055eb2ede3042c7ca539de68ea7b86
1.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نهج تصنيف المنطقة للوثائق العربية باستخدام الميزات الهجينة
Translated title (French)
Une approche de classification de zone pour les documents arabes utilisant des fonctionnalités hybrides
Translated title (Spanish)
Un enfoque de clasificación de zonas para documentos árabes utilizando funciones híbridas

Identifiers

Other
https://openalex.org/W2475432778
DOI
10.14569/ijacsa.2016.070722

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Egypt

References

  • https://openalex.org/W1491852184
  • https://openalex.org/W1541814010
  • https://openalex.org/W1837385667
  • https://openalex.org/W1971593881
  • https://openalex.org/W2005008005
  • https://openalex.org/W2006947050
  • https://openalex.org/W2028180100
  • https://openalex.org/W2055408294
  • https://openalex.org/W2085361026
  • https://openalex.org/W2091171890
  • https://openalex.org/W2102633905
  • https://openalex.org/W2111804574
  • https://openalex.org/W2135164809
  • https://openalex.org/W2135190479
  • https://openalex.org/W2138044764
  • https://openalex.org/W2153635508
  • https://openalex.org/W2161114053
  • https://openalex.org/W2161139839
  • https://openalex.org/W2163534337
  • https://openalex.org/W2184798753
  • https://openalex.org/W2327015391
  • https://openalex.org/W2488822897