Published January 1, 2019 | Version v1
Publication Open

Poetry to Prose Conversion in Sanskrit as a Linearisation Task: A Case for Low-Resource Languages

  • 1. Indian Institute of Technology Kharagpur
  • 2. McGill University

Description

The word ordering in a Sanskrit verse is often not aligned with its corresponding prose order.Conversion of the verse to its corresponding prose helps in better comprehension of the construction.Owing to the resource constraints, we formulate this task as a word ordering (linearisation) task.In doing so, we completely ignore the word arrangement at the verse side.kāvya guru, the approach we propose, essentially consists of a pipeline of two pretraining steps followed by a seq2seq model.The first pretraining step learns task specific token embeddings from pretrained embeddings.In the next step, we generate multiple hypotheses for possible word arrangements of the input (Wang et al., 2018).We then use them as inputs to a neural seq2seq model for the final prediction.We empirically show that the hypotheses generated by our pretraining step result in predictions that consistently outperform predictions based on the original order in the verse.Overall, kāvya guru outperforms current state of the art models in linearisation for the poetry to prose conversion task in Sanskrit.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

غالبًا ما لا يتماشى ترتيب الكلمات في الآية السنسكريتية مع ترتيب النثر المقابل لها. يساعد تحويل الآية إلى النثر المقابل لها في فهم أفضل للبناء .بالنظر إلى قيود الموارد، نقوم بصياغة هذه المهمة كمهمة ترتيب الكلمات (الخطية). عند القيام بذلك، نتجاهل تمامًا ترتيب الكلمات في جانب الآية. يتكون النهج الذي نقترحه بشكل أساسي من خط أنابيب من خطوتين قبل التدريب متبوعًا بنموذج seq2seq .تتتتتعلم الخطوة الأولى قبل التدريب تضمينات رمزية محددة للمهمة من التضمينات المدربة مسبقًا .في الخطوة التالية، نقوم بإنشاء فرضيات متعددة لترتيبات الكلمات المحتملة للإدخال (Wang et al.، 2018). ثم نستخدمها كمدخلات لنموذج متسلسل عصبي للتنبؤ النهائي. نظهر تجريبيًا أن الفرضيات التي تم إنشاؤها بواسطة خطوة ما قبل التدريب تؤدي إلى تنبؤات تتفوق باستمرار على التنبؤات بناءً على الترتيب الأصلي في الآية. بشكل عام، يتفوق معلم كافيا على أحدث النماذج في الخطية للشعر لمهمة تحويل النثر باللغة السنسكريتية.

Translated Description (French)

L'ordonnancement des mots dans un verset sanskrit n'est souvent pas aligné avec son ordre de prose correspondant. La conversion du verset en sa prose correspondante aide à mieux comprendre la construction. En raison des contraintes de ressources, nous formulons cette tâche comme une tâche d'ordonnancement de mots (linéarisation). Ce faisant, nous ignorons complètement l'arrangement des mots du côté du verset. kāvya guru, l'approche que nous proposons, consiste essentiellement en un pipeline de deux étapes de pré-entraînement suivies d'un modèle seq2seq. La première étape de pré-entraînement apprend des imbrications de jetons spécifiques à la tâche à partir d'imbrications pré-entraînées. Dans l'étape suivante, nous générons de multiples hypothèses pour d'éventuels arrangements de mots de l'entrée (Wang et al., 2018).Nous les utilisons ensuite comme entrées pour un modèle seq2seq neuronal pour la prédiction finale. Nous montrons empiriquement que les hypothèses générées par notre étape de pré-entraînement aboutissent à des prédictions qui surpassent systématiquement les prédictions basées sur l'ordre d'origine dans le verset. Dans l'ensemble, kāvya guru surpasse les modèles actuels de l'état de l'art en linéarisation pour la tâche de conversion de la poésie en prose en sanskrit.

Translated Description (Spanish)

La ordenación de palabras en un versículo en sánscrito a menudo no está alineada con su orden de prosa correspondiente. La conversión del versículo a su prosa correspondiente ayuda a una mejor comprensión de la construcción. Debido a las limitaciones de recursos, formulamos esta tarea como una tarea de ordenación de palabras (linealización). Al hacerlo, ignoramos por completo la disposición de palabras en el lado del versículo. El gurú kāvya, el enfoque que proponemos, consiste esencialmente en una canalización de dos pasos de preentrenamiento seguidos de un modelo seq2seq. El primer paso de preentrenamiento aprende incrustaciones de tokens específicas de la tarea a partir de incrustaciones preentrenadas. En el siguiente paso, generamos múltiples hipótesis para posibles disposiciones de palabras de la entrada (Wang et al., 2018) .Luego las usamos como entradas a un modelo neuronal seq2seq para la predicción final. Mostramos empíricamente que las hipótesis generadas por nuestro paso previo al entrenamiento dan como resultado predicciones que superan constantemente las predicciones basadas en el orden original en el verso. En general, el gurú kāvya supera los modelos actuales de vanguardia en linealización para la tarea de conversión de poesía a prosa en sánscrito.

Files

P19-1111.pdf.pdf

Files (226 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5360980bad11bf9723da89687501effc
226 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تحويل الشعر إلى نثر باللغة السنسكريتية كمهمة خطية: حالة للغات منخفضة الموارد
Translated title (French)
La conversion de la poésie en prose en sanskrit comme tâche de linéarisation : un argument en faveur des langues à faibles ressources
Translated title (Spanish)
Conversión de poesía a prosa en sánscrito como tarea de linealización: un caso para los idiomas de bajos recursos

Identifiers

Other
https://openalex.org/W2952515270
DOI
10.18653/v1/p19-1111

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2101105183
  • https://openalex.org/W2125814131
  • https://openalex.org/W2169546346
  • https://openalex.org/W2171766645
  • https://openalex.org/W2963993537
  • https://openalex.org/W2964190861