Published January 1, 2020 | Version v1
Publication Open

Evaluating Neural Morphological Taggers for Sanskrit

  • 1. University of Utah
  • 2. Indian Institute of Technology Kharagpur
  • 3. University of Zurich

Description

Neural sequence labelling approaches have achieved state of the art results in morphological tagging.We evaluate the efficacy of four standard sequence labelling models on Sanskrit, a morphologically rich, fusional Indian language.As its label space can theoretically contain more than 40,000 labels, systems that explicitly model the internal structure of a label are more suited for the task, because of their ability to generalise to labels not seen during training.We find that although some neural models perform better than others, one of the common causes for error for all of these models is mispredictions due to syncretism. 1

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

حققت مناهج وضع العلامات على التسلسل العصبي أحدث النتائج في وضع العلامات المورفولوجية. نقوم بتقييم فعالية أربعة نماذج لوضع العلامات على التسلسل القياسي على اللغة السنسكريتية، وهي لغة هندية غنية من الناحية المورفولوجية. نظرًا لأن مساحة الملصقات الخاصة بها يمكن أن تحتوي نظريًا على أكثر من 40،000 ملصق، فإن الأنظمة التي تصمم بشكل صريح الهيكل الداخلي للملصق هي أكثر ملاءمة للمهمة، بسبب قدرتها على التعميم على الملصقات التي لم تظهر أثناء التدريب. نجد أنه على الرغم من أن بعض النماذج العصبية تؤدي أداءً أفضل من غيرها، إلا أن أحد الأسباب الشائعة للخطأ في كل هذه النماذج هو سوء التقدير بسبب التوفيق. 1

Translated Description (French)

Les approches d'étiquetage des séquences neuronales ont permis d'obtenir des résultats de pointe en matière de marquage morphologique. Nous évaluons l'efficacité de quatre modèles d'étiquetage de séquence standard sur le sanskrit, une langue indienne fusionnelle morphologiquement riche. Comme son espace d'étiquetage peut théoriquement contenir plus de 40 000 étiquettes, les systèmes qui modélisent explicitement la structure interne d'une étiquette sont plus adaptés à la tâche, en raison de leur capacité à généraliser à des étiquettes non vues pendant la formation. Nous constatons que, bien que certains modèles neuronaux fonctionnent mieux que d'autres, l'une des causes courantes d'erreur pour tous ces modèles est les fausses prédictions dues au syncrétisme. 1

Translated Description (Spanish)

Los enfoques de etiquetado de secuencias neuronales han logrado resultados de vanguardia en el etiquetado morfológico. Evaluamos la eficacia de cuatro modelos estándar de etiquetado de secuencias en sánscrito, un lenguaje indio fusional morfológicamente rico. Como su espacio de etiquetas puede contener teóricamente más de 40,000 etiquetas, los sistemas que modelan explícitamente la estructura interna de una etiqueta son más adecuados para la tarea, debido a su capacidad de generalizar a etiquetas que no se ven durante el entrenamiento. Encontramos que aunque algunos modelos neuronales funcionan mejor que otros, una de las causas comunes de error para todos estos modelos son las predicciones erróneas debido al sincretismo. 1

Files

2020.sigmorphon-1.23.pdf.pdf

Files (226 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5360980bad11bf9723da89687501effc
226 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تقييم العلامات المورفولوجية العصبية للسنسكريتية
Translated title (French)
Évaluation des marqueurs morphologiques neuronaux pour le sanskrit
Translated title (Spanish)
Evaluación de los etiquetadores morfológicos neuronales para el sánscrito

Identifiers

Other
https://openalex.org/W3038008406
DOI
10.18653/v1/2020.sigmorphon-1.23

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2426917359
  • https://openalex.org/W2516255829
  • https://openalex.org/W2556468274
  • https://openalex.org/W2757376562
  • https://openalex.org/W2963490498