Published October 1, 2022 | Version v1
Publication

Arabic light-based stemmer using new rules

  • 1. National University of Malaysia
  • 2. Sana'a University
  • 3. Universiti Sains Malaysia
  • 4. Hodeidah University
  • 5. UCSI University

Description

Superior stemming algorithms aid significantly in many natural language processing (NLP) applications such as information retrieval. Arabic light-based stemmer is one of the most important stemming algorithms. However, partially due to the highly inflected and complexity of Arabic language morphological structure, most of the existing Arabic light-based stemmer algorithms eliminate a few numbers of suffixes and prefixes or both in the process of recognising the infix patterns to determine roots. The elimination of suffixes and prefixes leads to many inefficient results. Hence, this study aims to develop an improved light-based algorithm of the Arabic stemmer by proposing an appropriate suffixes and prefixes list, which is supported by rules according to word length (without using a morpheme or patterns on a stem). Our improved Dlight Arabic stemmer focuses on determining and removing the infix patterns under many rules on length-words and according to a specific order of the stages of the stemming to extract the double, triple and quadruple roots from long and short Arabic words. To evaluate our proposed light-based Arabic stemmer, we compared our stemmer against existing Arabic stemmers, namely Light10, Condlight and ARLST. The experimental results showed the proposed Develop Arabic Light-Based Stemmer (Dlight) obtained the best performance with 68% of F-measure, while the other three Arabic stemmers yield slightly lower F-measure. Finally, establishing an appropriate list of suffixes and prefixes with word length rules to stem Arabic words can improve the performance of a light-based Arabic stemmer.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تساعد خوارزميات الانبعاث المتفوقة بشكل كبير في العديد من تطبيقات معالجة اللغة الطبيعية (NLP) مثل استرجاع المعلومات. تعد أداة STEMMER العربية القائمة على الضوء واحدة من أهم خوارزميات STEMMING. ومع ذلك، نظرًا جزئيًا لتعقيد البنية المورفولوجية للغة العربية وتعقيدها الشديد، فإن معظم خوارزميات STEMMER العربية القائمة على الضوء تقضي على عدد قليل من اللواحق والبادئات أو كليهما في عملية التعرف على أنماط اللواحق لتحديد الجذور. يؤدي التخلص من اللواحق والبادئات إلى العديد من النتائج غير الفعالة. وبالتالي، تهدف هذه الدراسة إلى تطوير خوارزمية محسنة قائمة على الضوء للنابعة العربية من خلال اقتراح قائمة لاحقات وبادئات مناسبة، والتي تدعمها قواعد وفقًا لطول الكلمة (دون استخدام مورفيم أو أنماط على الساق). تركز ناظمتنا العربية المحسنة على تحديد وإزالة أنماط الأقواس تحت العديد من القواعد على الكلمات الطويلة ووفقًا لترتيب محدد لمراحل النابعة لاستخراج الجذور المزدوجة والثلاثية والرباعية من الكلمات العربية الطويلة والقصيرة. لتقييم جذعنا العربي المقترح القائم على الضوء، قمنا بمقارنة جذعنا مع الجذع العربي الحالي، أي Light10 و Condlight و ARLST. أظهرت النتائج التجريبية أن جهاز Stemmer العربي القائم على الضوء (Dlight) حصل على أفضل أداء بنسبة 68 ٪ من مقياس F، في حين أن أجهزة Stemmers العربية الثلاثة الأخرى تنتج مقياس F أقل قليلاً. أخيرًا، يمكن أن يؤدي إنشاء قائمة مناسبة من اللواحق والبادئات مع قواعد طول الكلمات إلى استخلاص الكلمات العربية إلى تحسين أداء جهاز استخلاص الكلمات العربية القائم على الضوء.

Translated Description (French)

Des algorithmes de Stemming supérieurs aident de manière significative dans de nombreuses applications de traitement du langage naturel (NLP) telles que la récupération d'informations. Le stemmer basé sur la lumière arabe est l'un des algorithmes de stemming les plus importants. Cependant, en partie en raison de la structure morphologique hautement infléchie et complexe de la langue arabe, la plupart des algorithmes de stemmer à base de lumière arabe existants éliminent quelques nombres de suffixes et de préfixes ou les deux dans le processus de reconnaissance des motifs d'infixe pour déterminer les racines. L'élimination des suffixes et des préfixes conduit à de nombreux résultats inefficaces. Par conséquent, cette étude vise à développer un algorithme amélioré basé sur la lumière du stemmer arabe en proposant une liste appropriée de suffixes et de préfixes, qui est soutenue par des règles en fonction de la longueur des mots (sans utiliser de morphème ou de motifs sur une tige). Notre stemmer arabe Dlight amélioré se concentre sur la détermination et la suppression des motifs d'infixe selon de nombreuses règles sur les mots de longueur et selon un ordre spécifique des étapes de la tige pour extraire les racines doubles, triples et quadruples des mots arabes longs et courts. Pour évaluer notre stemmer arabe à base de lumière proposé, nous avons comparé notre stemmer à des stemmers arabes existants, à savoir Light10, Condlight et ARLST. Les résultats expérimentaux ont montré que le modèle Develop Arabic Light-Based Stemmer (Dlight) proposé obtenait les meilleures performances avec 68 % de la mesure F, tandis que les trois autres modèles arabes donnaient une mesure F légèrement inférieure. Enfin, établir une liste appropriée de suffixes et de préfixes avec des règles de longueur de mot pour endiguer les mots arabes peut améliorer les performances d'un stemmer arabe léger.

Translated Description (Spanish)

Los algoritmos de derivación superiores ayudan significativamente en muchas aplicaciones de procesamiento del lenguaje natural (PNL), como la recuperación de información. El stemmer árabe basado en la luz es uno de los algoritmos de stemming más importantes. Sin embargo, en parte debido a la gran inflexión y complejidad de la estructura morfológica de la lengua árabe, la mayoría de los algoritmos de stemmer basados en la luz árabe existentes eliminan algunos números de sufijos y prefijos o ambos en el proceso de reconocimiento de los patrones de infijo para determinar las raíces. La eliminación de sufijos y prefijos conduce a muchos resultados ineficientes. Por lo tanto, este estudio tiene como objetivo desarrollar un algoritmo basado en la luz mejorado del stemmer árabe proponiendo una lista de sufijos y prefijos apropiada, que esté respaldada por reglas de acuerdo con la longitud de la palabra (sin usar un morfema o patrones en un tallo). Nuestro derivador árabe Dlight mejorado se centra en determinar y eliminar los patrones de infijo bajo muchas reglas sobre palabras largas y de acuerdo con un orden específico de las etapas de la derivación para extraer las raíces dobles, triples y cuádruples de palabras árabes largas y cortas. Para evaluar nuestro stemmer árabe basado en la luz propuesto, comparamos nuestro stemmer con los stemmers árabes existentes, a saber, Light10, Condlight y ARLST. Los resultados experimentales mostraron que el Develop Arabic Light-Based Stemmer (Dlight) propuesto obtuvo el mejor rendimiento con el 68% de la medida F, mientras que los otros tres stemmers árabes producen una medida F ligeramente inferior. Finalmente, establecer una lista apropiada de sufijos y prefijos con reglas de longitud de palabra para derivar palabras árabes puede mejorar el rendimiento de un derivador árabe basado en la luz.

Additional details

Additional titles

Translated title (Arabic)
ستيمر عربي قائم على الضوء باستخدام قواعد جديدة
Translated title (French)
Stemmer basé sur la lumière arabe en utilisant de nouvelles règles
Translated title (Spanish)
STEMMER árabe basado en la luz usando nuevas reglas

Identifiers

Other
https://openalex.org/W3193305930
DOI
10.1016/j.jksuci.2021.08.017

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Yemen

References

  • https://openalex.org/W30790492
  • https://openalex.org/W42789657
  • https://openalex.org/W88705112
  • https://openalex.org/W1972156112
  • https://openalex.org/W2000691685
  • https://openalex.org/W2031682806
  • https://openalex.org/W2054997212
  • https://openalex.org/W2094935698
  • https://openalex.org/W2134141008
  • https://openalex.org/W2162885125
  • https://openalex.org/W2204491699
  • https://openalex.org/W2295518084
  • https://openalex.org/W2492019793
  • https://openalex.org/W2563852550
  • https://openalex.org/W2599054872
  • https://openalex.org/W2811399416
  • https://openalex.org/W2941109163
  • https://openalex.org/W2988839538
  • https://openalex.org/W2990637605
  • https://openalex.org/W3009495092
  • https://openalex.org/W3016907511
  • https://openalex.org/W3082801990
  • https://openalex.org/W3120349973
  • https://openalex.org/W4233945598