Published December 28, 2023 | Version v1
Publication Open

BantuLM: Enhancing Cross-Lingual Learning in the Bantu Language Family

  • 1. Institut National de Statistique et d'Economie Appliquée

Description

Abstract This paper outlines methods for improving Bantu languages through the application of Natural Language Processing techniques. We trained a Large Language Model known as Bidirectional Encoder Representations from Transformers for the understanding of 18 Bantu languages. More precisely, we pre-trained the model using an unsupervised corpus obtained using pseudo-labeling. This pre-training task aims to comprehend the latent structures of these languages owing to an attention mechanism that enables a deeper understanding of the context. We then conducted various experiments on five downstream tasks: Language Identification, Sentiment Analysis, News Classification, Named Entity Recognition and Text Summarization. Finally, we proposed to test the effectiveness of using multilingualism in a few closely related languages instead of leveraging a vast amount of data and multiple languages that are not necessarily related. In fact, we conducted experiments on unseen languages belonging to the Bantu family and we found that the model demonstrates better ability understanding them due to their similarities to the languages used for pre-training.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الملخص توضح هذه الورقة طرق تحسين لغات البانتو من خلال تطبيق تقنيات معالجة اللغة الطبيعية. قمنا بتدريب نموذج لغة كبير يعرف باسم تمثيلات التشفير ثنائية الاتجاه من المحولات لفهم 18 لغة بانتو. بتعبير أدق، قمنا بتدريب النموذج مسبقًا باستخدام مجموعة غير خاضعة للإشراف تم الحصول عليها باستخدام وضع العلامات الزائفة. تهدف مهمة ما قبل التدريب هذه إلى فهم التراكيب الكامنة لهذه اللغات بسبب آلية الانتباه التي تمكن من فهم أعمق للسياق. ثم أجرينا تجارب مختلفة على خمس مهام فرعية: تحديد اللغة، وتحليل المشاعر، وتصنيف الأخبار، والتعرف على الكيانات المسماة، وتلخيص النص. أخيرًا، اقترحنا اختبار فعالية استخدام التعددية اللغوية في عدد قليل من اللغات ذات الصلة الوثيقة بدلاً من الاستفادة من كمية هائلة من البيانات واللغات المتعددة التي لا ترتبط بالضرورة. في الواقع، أجرينا تجارب على لغات غير مرئية تنتمي إلى عائلة البانتو ووجدنا أن النموذج يوضح قدرة أفضل على فهمها بسبب تشابهها مع اللغات المستخدمة في التدريب المسبق.

Translated Description (French)

Résumé Cet article décrit les méthodes d'amélioration des langues bantoues par l'application de techniques de traitement du langage naturel. Nous avons formé un grand modèle de langage connu sous le nom de représentations d'encodeur bidirectionnel à partir de transformateurs pour la compréhension de 18 langues bantoues. Plus précisément, nous avons pré-entraîné le modèle à l'aide d'un corpus non supervisé obtenu par pseudo-étiquetage. Cette tâche de préformation vise à comprendre les structures latentes de ces langues grâce à un mécanisme d'attention qui permet une compréhension plus profonde du contexte. Nous avons ensuite mené diverses expériences sur cinq tâches en aval : l'identification de la langue, l'analyse des sentiments, la classification des nouvelles, la reconnaissance des entités nommées et la synthèse de texte. Enfin, nous avons proposé de tester l'efficacité de l'utilisation du multilinguisme dans quelques langues étroitement liées au lieu de tirer parti d'une grande quantité de données et de plusieurs langues qui ne sont pas nécessairement liées. En fait, nous avons mené des expériences sur des langues invisibles appartenant à la famille bantoue et nous avons constaté que le modèle démontrait une meilleure capacité à les comprendre en raison de leurs similitudes avec les langues utilisées pour le pré-formation.

Translated Description (Spanish)

Resumen Este documento describe los métodos para mejorar las lenguas bantúes mediante la aplicación de técnicas de procesamiento del lenguaje natural. Capacitamos un modelo de lenguaje grande conocido como representaciones de codificadores bidireccionales de transformadores para la comprensión de 18 idiomas bantúes. Más precisamente, pre-entrenamos el modelo utilizando un corpus no supervisado obtenido mediante pseudoetiquetado. Esta tarea de pre-entrenamiento tiene como objetivo comprender las estructuras latentes de estos idiomas debido a un mecanismo de atención que permite una comprensión más profunda del contexto. Luego realizamos varios experimentos en cinco tareas posteriores: identificación de idiomas, análisis de sentimientos, clasificación de noticias, reconocimiento de entidades nombradas y resumen de texto. Finalmente, propusimos probar la efectividad del uso del multilingüismo en algunos idiomas estrechamente relacionados en lugar de aprovechar una gran cantidad de datos y múltiples idiomas que no están necesariamente relacionados. De hecho, realizamos experimentos en lenguas invisibles pertenecientes a la familia bantú y descubrimos que el modelo demuestra una mejor capacidad para comprenderlas debido a sus similitudes con las lenguas utilizadas para el preentrenamiento.

Files

latest.pdf.pdf

Files (545.7 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:d05143e31111ea0b44718a4b28576764
545.7 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
BantuLM: تعزيز التعلم عبر اللغات في عائلة لغة البانتو
Translated title (French)
BantuLM : Améliorer l'apprentissage multilingue dans la famille des langues bantoues
Translated title (Spanish)
BantuLM: Mejorar el aprendizaje interlingüístico en la familia de lenguas bantúes

Identifiers

Other
https://openalex.org/W4390298159
DOI
10.21203/rs.3.rs-3793749/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Morocco