Published January 1, 2023 | Version v1
Publication Open

SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes

  • 1. Indian Institute of Technology Kanpur
  • 2. Indian Institute of Technology Mandi
  • 3. Indian Institute of Technology Kharagpur

Description

We present a neural Sanskrit Natural Language Processing (NLP) toolkit named SanskritShala 1 to facilitate computational linguistic analyses for several tasks such as word segmentation, morphological tagging, dependency parsing, and compound type identification.Our systems currently report state-of-the-art performance on available benchmark datasets for all tasks.San-skritShala is deployed as a web-based application, which allows a user to get real-time analysis for the given input.It is built with easy-touse interactive data annotation features that allow annotators to correct the system predictions when it makes mistakes.We publicly release the source codes of the 4 modules included in the toolkit, 7 word embedding models that have been trained on publicly available Sanskrit corpora and multiple annotated datasets such as word similarity, relatedness, categorization, analogy prediction to assess intrinsic properties of word embeddings.So far as we know, this is the first neural-based Sanskrit NLP toolkit that has a web-based interface and a number of NLP modules.We are sure that the people who are willing to work with Sanskrit will find it useful for pedagogical and annotative purposes.SanskritShala is available at: https:// cnerg.iitkgp.ac.in/sanskritshala.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

نقدم مجموعة أدوات معالجة اللغة الطبيعية السنسكريتية العصبية (NLP) المسماة SanskritShala 1 لتسهيل التحليلات اللغوية الحسابية لعدة مهام مثل تجزئة الكلمات، ووضع العلامات المورفولوجية، وتحليل التبعية، وتحديد النوع المركب. تقوم أنظمتنا حاليًا بالإبلاغ عن الأداء المتطور على مجموعات البيانات المعيارية المتاحة لجميع المهام. يتم نشر San - skritShala كتطبيق قائم على الويب، والذي يسمح للمستخدم بالحصول على تحليل في الوقت الفعلي للمدخلات المعطاة. وهي مبنية على ميزات التعليق التوضيحي للبيانات التفاعلية سهلة الاستخدام التي تسمح للمعلقين تصحيح تنبؤات النظام عندما يرتكب أخطاء. نصدر علنًا رموز المصدر للوحدات الأربع المضمنة في مجموعة الأدوات، ونماذج التضمين المكونة من 7 كلمات التي تم تدريبها على الشركات السنسكريتية المتاحة للجمهور ومجموعات البيانات المشروحة المتعددة مثل تشابه الكلمات، والارتباط، والتصنيف، والتنبؤ بالقياس لتقييم الخصائص الجوهرية لتضمينات الكلمات. على حد علمنا، هذه هي أول مجموعة أدوات البرمجة اللغوية العصبية السنسكريتية التي تحتوي على واجهة قائمة على الويب وعدد من وحدات البرمجة اللغوية العصبية. نحن على يقين من أن الأشخاص الراغبين في العمل مع السنسكريتية سيجدونها مفيدة للتربية والتعليمية purposes.SanskritShala متاح على: https :// cnerg.iitkgp.ac.in/sanskritshala.

Translated Description (French)

Nous présentons une boîte à outils neuronale de traitement du langage naturel sanskrit (NLP) nommée SanskritShala 1 pour faciliter les analyses linguistiques computationnelles pour plusieurs tâches telles que la segmentation des mots, le marquage morphologique, l'analyse des dépendances et l'identification des types composés.Nos systèmes rapportent actuellement des performances de pointe sur les ensembles de données de référence disponibles pour toutes les tâches.San-skritShala est déployé en tant qu'application Web, ce qui permet à un utilisateur d'obtenir une analyse en temps réel pour l'entrée donnée.Il est construit avec des fonctionnalités d'annotation de données interactives faciles à utiliser qui permettent aux annotateurs de corriger les prédictions du système lorsqu'il fait des erreurs. Nous publions publiquement les codes sources des 4 modules inclus dans la boîte à outils, des modèles d'intégration de 7 mots qui ont été formés sur des corpus sanskrit accessibles au public et de multiples ensembles de données annotés tels que la similarité des mots, la parenté, la catégorisation, la prédiction par analogie pour évaluer les propriétés intrinsèques des intégrations de mots. À notre connaissance, il s'agit de la première boîte à outils de PNL basée sur les neurones qui dispose d'une interface Web et d'un certain nombre de modules de PNL. Nous sommes sûrs que les personnes qui sont prêtes à travailler avec le sanskrit le trouveront utile pour la pédagogie et l'annotation purposes.SanskritShala est disponible sur : https :// cnerg.iitkgp.ac.in/sanskritshala.

Translated Description (Spanish)

Presentamos un conjunto de herramientas neuronales de procesamiento del lenguaje natural (PNL) en sánscrito llamado SanskritShala 1 para facilitar los análisis lingüísticos computacionales para varias tareas, como la segmentación de palabras, el etiquetado morfológico, el análisis de dependencias y la identificación de tipos de compuestos. Nuestros sistemas actualmente informan sobre el rendimiento de vanguardia en los conjuntos de datos de referencia disponibles para todas las tareas. San-skritShala se implementa como una aplicación basada en la web, que permite al usuario obtener análisis en tiempo real para la entrada dada. Está construido con funciones de anotación de datos interactivos fáciles de usar que permiten a los anotadores corregir las predicciones del sistema cuando comete errores. Publicamos públicamente los códigos fuente de los 4 módulos incluidos en el kit de herramientas, los modelos de incrustación de 7 palabras que han sido entrenados en corpus en sánscrito disponibles públicamente y múltiples conjuntos de datos anotados, como similitud de palabras, relación, categorización, predicción de analogía para evaluar las propiedades intrínsecas de las incrustaciones de palabras. Hasta donde sabemos, este es el primer kit de herramientas de PNL en sánscrito basado en neuronas que tiene una interfaz basada en la web y una serie de módulos de PNL. Estamos seguros de que las personas que estén dispuestas a trabajar con sánscrito lo encontrarán útil para fines pedagógicos y anotativos purposes.SanskritShala está disponible en: https:// cnerg.iitkgp.ac.in/sanskritshala.

Files

2023.acl-demo.10.pdf.pdf

Files (883.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:9a3dd2a3847fecd1a698c6e1a1d02ed1
883.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
SanskritShala: مجموعة أدوات البرمجة اللغوية العصبية السنسكريتية مع واجهة على شبكة الإنترنت للأغراض التربوية والتعليقات التوضيحية
Translated title (French)
SanskritShala : une boîte à outils Neural Sanskrit NLP avec interface Web à des fins pédagogiques et d'annotation
Translated title (Spanish)
SanskritShala: un kit de herramientas de PNL en sánscrito neuronal con interfaz basada en la web para fines pedagógicos y de anotación

Identifiers

Other
https://openalex.org/W4385565403
DOI
10.18653/v1/2023.acl-demo.10

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W1570693594
  • https://openalex.org/W2250539671
  • https://openalex.org/W2251803266
  • https://openalex.org/W2463895987
  • https://openalex.org/W2493916176
  • https://openalex.org/W2533581713
  • https://openalex.org/W2538747984
  • https://openalex.org/W2740345664
  • https://openalex.org/W2890761057
  • https://openalex.org/W2892239351
  • https://openalex.org/W2952515270
  • https://openalex.org/W2962739339
  • https://openalex.org/W2963714641
  • https://openalex.org/W2996582070
  • https://openalex.org/W3038008406
  • https://openalex.org/W3094003967
  • https://openalex.org/W3102906397
  • https://openalex.org/W3110384763
  • https://openalex.org/W3153469086
  • https://openalex.org/W3173649224
  • https://openalex.org/W3195062997
  • https://openalex.org/W4221163868
  • https://openalex.org/W4287083909
  • https://openalex.org/W4298187319
  • https://openalex.org/W4307205203