A Dataset for Sanskrit Word Segmentation
- 1. Indian Institute of Technology Kharagpur
Description
The last decade saw a surge in digitisation efforts for ancient manuscripts in Sanskrit.Due to various linguistic peculiarities inherent to the language, even the preliminary tasks such as word segmentation are non-trivial in Sanskrit.Elegant models for Word Segmentation in Sanskrit are indispensable for further syntactic and semantic processing of the manuscripts.Current works in word segmentation for Sanskrit, though commendable in their novelty, often have variations in their objective and evaluation criteria.In this work, we set the record straight.We formally define the objectives and the requirements for the word segmentation task.In order to encourage research in the field and to alleviate the time and effort required in pre-processing, we release a dataset of 115,000 sentences for word segmentation.For each sentence in the dataset we include the input character sequence, ground truth segmentation, and additionally lexical and morphological information about all the phonetically possible segments for the given sentence.In this work, we also discuss the linguistic considerations made while generating the candidate space of the possible segments.
Translated Descriptions
Translated Description (Arabic)
شهد العقد الماضي طفرة في جهود الرقمنة للمخطوطات القديمة باللغة السنسكريتية. نظرًا للخصائص اللغوية المختلفة المتأصلة في اللغة، حتى المهام الأولية مثل تجزئة الكلمات ليست تافهة في اللغة السنسكريتية. النماذج الأنيقة لتجزئة الكلمات باللغة السنسكريتية لا غنى عنها لمزيد من المعالجة النحوية والدلالية للمخطوطات. الأعمال الحالية في تجزئة الكلمات باللغة السنسكريتية، على الرغم من أنها جديرة بالثناء في حداثتها، غالبًا ما يكون لها اختلافات في معاييرها الموضوعية والتقييمية. في هذا العمل، نضع الأمور في نصابها الصحيح. نحدد رسميًا أهداف ومتطلبات مهمة تجزئة الكلمات. من أجل تشجيع البحث في هذا المجال وتخفيف الوقت والجهد اللازمين في المعالجة المسبقة، نصدر مجموعة بيانات من 115000 جملة لتجزئة الكلمات. لكل مجموعة بيانات، نقوم بتضمين تسلسل خصائص الإدخال، وتجزئة الحقيقة على الأرض، بالإضافة إلى معلومات معجمية وصرفية حول جميع الشرائح الممكنة صوتيًا للجملة المعطاة. في هذا العمل، نناقش أيضًا الاعتبارات اللغوية أثناء توليد المرشح المحتمل للشرائح.Translated Description (English)
The last decade saw a surge in digitisation efforts for ancient manuscripts in Sanskrit.Due to various linguistic peculiarities inherent to the language, even the preliminary tasks such as word segmentation are non-trivial in Sanskrit.Elegant models for Word Segmentation in Sanskrit are indispensable for further syntactic and semantic processing of the manuscripts.Current works in word segmentation for Sanskrit, although commendable in their novelty, often have variations in their objective and evaluation criteria.In this work, we set the record straight.We formally define the objectives and the requirements for the word segmentation task.In order to encourage research in the field and to alleviate the time and effort required in pre-processing, we release a dataset of 115,000 sentences for word segmentation.For each of the dataset we include the input character sequence, ground truth segmentation, and additionally lexical and morphological information about all the phonetically possible segments for the given sentence.In this work, we also discuss the linguistic considerations made while generating the candidate space of the possible segments.Translated Description (French)
La dernière décennie a vu une recrudescence des efforts de numérisation pour les manuscrits anciens en sanskrit. En raison de diverses particularités linguistiques inhérentes à la langue, même les tâches préliminaires telles que la segmentation des mots ne sont pas triviales en sanskrit. Des modèles élégants pour la segmentation des mots en sanskrit sont indispensables pour un traitement syntaxique et sémantique ultérieur des manuscrits. Les travaux actuels en segmentation des mots pour le sanskrit, bien que louables dans leur nouveauté, ont souvent des variations dans leurs critères objectifs et d'évaluation. Dans ce travail, nous mettons les pendules à l'heure. Nous définissons formellement les objectifs et les exigences pour la tâche de segmentation des mots. Afin d'encourager la recherche sur le terrain et d'alléger le temps et les efforts nécessaires au prétraitement, nous publions un ensemble de données de 115 000 phrases pour la segmentation des mots. Pour chacun des ensembles de données, nous incluons la séquence de caractères d'entrée, la segmentation de la vérité fondamentale et, en outre, des informations lexicales et morphologiques sur tous les segments phonétiquement possibles pour la phrase donnée. Dans ce travail, nous discutons également des considérations linguistiques faites tout en générant l'espace candidat des segments possibles.Translated Description (Spanish)
La última década vio un aumento en los esfuerzos de digitalización de manuscritos antiguos en sánscrito. Debido a varias peculiaridades lingüísticas inherentes al idioma, incluso las tareas preliminares como la segmentación de palabras no son triviales en sánscrito. Los modelos elegantes para la segmentación de palabras en sánscrito son indispensables para un mayor procesamiento sintáctico y semántico de los manuscritos. Los trabajos actuales en segmentación de palabras para sánscrito, aunque encomiables en su novedad, a menudo tienen variaciones en sus criterios objetivos y de evaluación. En este trabajo, aclaramos las cosas. Definimos formalmente los objetivos y los requisitos para la tarea de segmentación de palabras. Con el fin de fomentar la investigación en el campo y aliviar el tiempo y el esfuerzo requeridos en el preprocesamiento, lanzamos un conjunto de datos de 115,000 oraciones para la segmentación de palabras. Para cada uno de los conjuntos de datos, incluimos la secuencia de caracteres de entrada, la segmentación de verdad fundamental y, además, la información léxica y morfológica sobre todos los segmentos fonéticamente posibles para la oración dada. En este trabajo, también discutimos las consideraciones lingüísticas hechas al generar el espacio candidato de los segmentos posibles.Files
      
        W17-2214.pdf.pdf
        
      
    
    
      
        Files
         (226 Bytes)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:5360980bad11bf9723da89687501effc | 226 Bytes | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- مجموعة بيانات لتقسيم الكلمات السنسكريتية
- Translated title (English)
- A Dataset for Sanskrit Word Segmentation
- Translated title (French)
- Un ensemble de données pour la segmentation des mots en sanskrit
- Translated title (Spanish)
- Un conjunto de datos para la segmentación de palabras en sánscrito
Identifiers
- Other
- https://openalex.org/W2741444903
- DOI
- 10.18653/v1/w17-2214
            
              References
            
          
        - https://openalex.org/W1493799397
- https://openalex.org/W1513168562
- https://openalex.org/W2029249040
- https://openalex.org/W2108980486
- https://openalex.org/W2122228338
- https://openalex.org/W2125910575
- https://openalex.org/W2132022337
- https://openalex.org/W2166416461
- https://openalex.org/W2250511639
- https://openalex.org/W2251444172
- https://openalex.org/W2469279958
- https://openalex.org/W2538747984
- https://openalex.org/W2574685885
- https://openalex.org/W2576240207
- https://openalex.org/W2789474247
- https://openalex.org/W646974955