Published January 1, 2022 | Version v1
Publication Open

TransLIST: A Transformer-Based Linguistically Informed Sanskrit Tokenizer

  • 1. Indian Institute of Technology Kanpur
  • 2. UCLA Health
  • 3. Indian Institute of Technology Mandi
  • 4. Indian Institute of Technology Kharagpur

Description

Sanskrit Word Segmentation (SWS) is essential in making digitized texts available and in deploying downstream tasks.It is, however, non-trivial because of the sandhi phenomenon that modifies the characters at the word boundaries, and needs special treatment.Existing lexicon driven approaches for SWS make use of Sanskrit Heritage Reader, a lexicon-driven shallow parser, to generate the complete candidate solution space, over which various methods are applied to produce the most valid solution.However, these approaches fail while encountering out-of-vocabulary tokens.On the other hand, purely engineering methods for SWS have made use of recent advances in deep learning, but cannot make use of the latent word information on availability.To mitigate the shortcomings of both families of approaches, we propose Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST) consisting of (1) a module that encodes the character input along with latentword information, which takes into account the sandhi phenomenon specific to SWS and is apt to work with partial or no candidate solutions, (2) a novel soft-masked attention to prioritize potential candidate words and (3) a novel path ranking algorithm to rectify the corrupted predictions.Experiments on the benchmark datasets for SWS show that TransLIST outperforms the current state-of-the-art system by an average 7.2 points absolute gain in terms of perfect match (PM) metric. 1

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تجزئة الكلمات السنسكريتية (SWS) ضرورية في جعل النصوص الرقمية متاحة وفي نشر المهام النهائية. ومع ذلك، فهي غير تافهة بسبب الظاهرة الرملية التي تعدل الأحرف عند حدود الكلمة، وتحتاج إلى معاملة خاصة. تستخدم الأساليب القائمة على المعجم لـ SWS قارئ التراث السنسكريتية، وهو محلل ضحل يحركه المعجم، لتوليد مساحة الحل المرشح الكاملة، والتي يتم تطبيق طرق مختلفة عليها لإنتاج الحل الأكثر صلاحية. ومع ذلك، تفشل هذه الأساليب أثناء مواجهة الرموز خارج المفردات. من ناحية أخرى، استفادت الأساليب الهندسية البحتة لـ SWS من التطورات الحديثة في التعلم العميق، ولكن لا يمكنها الاستفادة من معلومات الكلمات الكامنة حول التوافر. للتخفيف من أوجه القصور في كلتا العائلتين من الأساليب، نقترح محولًا مبنيًا على المعرفة اللغوية السنسكريتية (TransLIST) يتكون من (1) وحدة نمطية تشفر إدخال الأحرف جنبًا إلى جنب مع معلومات الكلمات الكامنة، والتي تأخذ في الاعتبار الظاهرة الرملية الخاصة بـ SWS وتكون مناسبة للعمل مع حلول جزئية أو معدومة للمرشحين، (2) اهتمامًا جديدًا ناعمًا بإعطاء الأولوية للكلمات المرشحة المحتملة و (3) رواية خوارزمية تصنيف المسار لتصحيح التنبؤات التالفة. تُظهر التجارب على مجموعات البيانات المعيارية لـ SWS أن TransLIST تتفوق على النظام الحديث الحالي بمتوسط ربح مطلق قدره 7.2 نقطة من حيث مقياس التطابق المثالي (PM). 1

Translated Description (French)

La segmentation des mots sanskrits (SWS) est essentielle pour rendre les textes numérisés disponibles et pour déployer des tâches en aval. Elle n'est cependant pas triviale en raison du phénomène sandhi qui modifie les caractères aux limites des mots et nécessite un traitement spécial. Les approches existantes axées sur le lexique pour SWS utilisent Sanskrit Heritage Reader, un analyseur superficiel axé sur le lexique, pour générer l'espace de solution candidat complet, sur lequel diverses méthodes sont appliquées pour produire la solution la plus valide. Cependant, ces approches échouent lorsqu'elles rencontrent des jetons hors vocabulaire. D'autre part, des méthodes purement techniques pour SWS ont fait usage des progrès récents dans l'apprentissage profond, mais ne peuvent pas utiliser les informations latentes sur les mots sur la disponibilité. Pour pallier les lacunes des deux familles d'approches, nous proposons Transformer-based Linguistically Informed Sanskrit Tokenizer (TransLIST) composé de (1) un module qui encode l'entrée de caractère ainsi que les informations latentes sur les mots, qui prend en compte le phénomène sandhi spécifique à SWS et est apte à travailler avec des solutions candidates partielles ou inexistantes, (2) une nouvelle attention masquée pour prioriser les mots candidats potentiels et (3) un nouveau algorithme de classement des chemins pour corriger les prédictions corrompues.Les expériences sur les ensembles de données de référence pour SWS montrent que TransLIST surpasse le système de pointe actuel d'un gain absolu moyen de 7,2 points en termes de métrique de correspondance parfaite (PM). 1

Translated Description (Spanish)

La segmentación de palabras en sánscrito (SWS) es esencial para que los textos digitalizados estén disponibles y para implementar tareas posteriores. Sin embargo, no es trivial debido al fenómeno sandhi que modifica los caracteres en los límites de las palabras y necesita un tratamiento especial. Los enfoques basados en léxico existentes para SWS utilizan Sanskrit Heritage Reader, un analizador superficial basado en léxico, para generar el espacio completo de soluciones candidatas, sobre el cual se aplican varios métodos para producir la solución más válida. Sin embargo, estos enfoques fallan al encontrarse con tokens fuera del vocabulario. Por otro lado, los métodos de ingeniería pura para SWS han hecho uso de los avances recientes en el aprendizaje profundo, pero no pueden hacer uso de la información de palabras latentes sobre la disponibilidad. Para mitigar las deficiencias de ambas familias de enfoques, proponemos Transformer basado en Linguistically Informed Sanskrit Tokenizer (TransLIST) que consiste en (1) un módulo que codifica la entrada de caracteres junto con la información de palabras latentes, que tiene en cuenta el fenómeno sandhi específico de SWS y es apto para trabajar con soluciones parciales o no candidatas, (2) una novedosa atención enmascarada para priorizar las posibles palabras candidatas y (3) una novela algoritmo de clasificación de ruta para rectificar las predicciones dañadas. Los experimentos en los conjuntos de datos de referencia para SWS muestran que TransLIST supera al sistema actual de última generación en un promedio de 7.2 puntos de ganancia absoluta en términos de métrica de coincidencia perfecta (PM). 1

Files

2022.findings-emnlp.513.pdf.pdf

Files (1.2 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:622f6a4ac3680745b93c6854ca973505
1.2 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
TransLIST: أداة ترميز سنسكريتية مستنيرة لغويًا تعتمد على المحولات
Translated title (French)
TransLIST : un jeton sanskrit linguistiquement informé basé sur un transformateur
Translated title (Spanish)
TransLIST: un tokenizador sánscrito lingüísticamente informado basado en transformadores

Identifiers

Other
https://openalex.org/W4385573656
DOI
10.18653/v1/2022.findings-emnlp.513

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2538747984
  • https://openalex.org/W2741444903
  • https://openalex.org/W2890761057
  • https://openalex.org/W2892239351
  • https://openalex.org/W2962904552
  • https://openalex.org/W2963970605
  • https://openalex.org/W2970323499
  • https://openalex.org/W3034379414
  • https://openalex.org/W3038008406
  • https://openalex.org/W3094003967
  • https://openalex.org/W3102906397