Published January 1, 2019 | Version v1
Publication Open

ArbEngVec : Arabic-English Cross-Lingual Word Embedding Model

  • 1. University of Eloued
  • 2. Hamad bin Khalifa University
  • 3. Université Grenoble Alpes
  • 4. Laboratoire d'Informatique de Grenoble
  • 5. Grenoble Images Parole Signal Automatique

Description

Word Embeddings (WE) are getting increasingly popular and widely applied in many Natural Language Processing (NLP) applications due to their effectiveness in capturing semantic properties of words; Machine Translation (MT), Information Retrieval (IR) and Information Extraction (IE) are among such areas. In this paper, we propose an open source ArbEngVec which provides several Arabic-English cross-lingual word embedding models. To train our bilingual models, we use a large dataset with more than 93 million pairs of Arabic-English parallel sentences. In addition, we perform both extrinsic and intrinsic evaluations for the different word embedding model variants. The extrinsic evaluation assesses the performance of models on the cross-language Semantic Textual Similarity (STS), while the intrinsic evaluation is based on the Word Translation (WT) task.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تزداد شعبية تضمينات الكلمات (WE) وتطبيقها على نطاق واسع في العديد من تطبيقات معالجة اللغة الطبيعية (NLP) نظرًا لفعاليتها في التقاط الخصائص الدلالية للكلمات ؛ ومن بين هذه المجالات الترجمة الآلية (MT) واسترجاع المعلومات (IR) واستخراج المعلومات (IE). في هذه الورقة، نقترح ArbEngVec مفتوح المصدر يوفر العديد من نماذج تضمين الكلمات عبر اللغة العربية والإنجليزية. لتدريب نماذجنا ثنائية اللغة، نستخدم مجموعة بيانات كبيرة تحتوي على أكثر من 93 مليون زوج من الجمل المتوازية العربية- الإنجليزية. بالإضافة إلى ذلك، نقوم بإجراء تقييمات خارجية وجوهرية لمتغيرات نموذج تضمين الكلمات المختلفة. يقوم التقييم الخارجي بتقييم أداء النماذج على التشابه النصي الدلالي عبر اللغات (STS)، بينما يعتمد التقييم الداخلي على مهمة ترجمة الكلمات (WT).

Translated Description (French)

Les intégrations de mots (WE) sont de plus en plus populaires et largement appliquées dans de nombreuses applications de traitement du langage naturel (NLP) en raison de leur efficacité à capturer les propriétés sémantiques des mots ; La traduction automatique (MT), la récupération d'informations (IR) et l'extraction d'informations (IE) font partie de ces domaines. Dans cet article, nous proposons un ArbEngVec open source qui fournit plusieurs modèles d'intégration de mots multilingues arabe-anglais. Pour former nos modèles bilingues, nous utilisons un grand ensemble de données avec plus de 93 millions de paires de phrases parallèles arabe-anglais. En outre, nous effectuons des évaluations à la fois extrinsèques et intrinsèques pour les différentes variantes du modèle d'intégration de mots. L'évaluation extrinsèque évalue la performance des modèles sur la similarité textuelle sémantique (STS) multilingue, tandis que l'évaluation intrinsèque est basée sur la tâche de traduction de mots (WT).

Translated Description (Spanish)

Las incrustaciones de palabras (WE) son cada vez más populares y se aplican ampliamente en muchas aplicaciones de procesamiento del lenguaje natural (PNL) debido a su eficacia en la captura de las propiedades semánticas de las palabras; la traducción automática (MT), la recuperación de información (IR) y la extracción de información (IE) se encuentran entre estas áreas. En este documento, proponemos un ArbEngVec de código abierto que proporciona varios modelos de incrustación de palabras en varios idiomas árabe-inglés. Para entrenar nuestros modelos bilingües, utilizamos un gran conjunto de datos con más de 93 millones de pares de oraciones paralelas árabe-inglés. Además, realizamos evaluaciones tanto extrínsecas como intrínsecas para las diferentes variantes del modelo de incrustación de palabras. La evaluación extrínseca evalúa el rendimiento de los modelos en la Similitud Textual Semántica (STS) entre idiomas, mientras que la evaluación intrínseca se basa en la tarea de Traducción de Palabras (WT).

Files

W19-4605.pdf.pdf

Files (226 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5360980bad11bf9723da89687501effc
226 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
ArbEngVec : نموذج تضمين الكلمات عبر اللغات العربية والإنجليزية
Translated title (French)
ArbEngVec : Modèle d'intégration de mots multilingues arabe-anglais
Translated title (Spanish)
ArbEngVec : modelo de incrustación de palabras interlingüísticas árabe-inglés

Identifiers

Other
https://openalex.org/W4288278495
DOI
10.18653/v1/w19-4605

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Algeria

References

  • https://openalex.org/W11511616
  • https://openalex.org/W1614298861
  • https://openalex.org/W179875071
  • https://openalex.org/W2028742638
  • https://openalex.org/W2068297964
  • https://openalex.org/W2118090838
  • https://openalex.org/W2131462252
  • https://openalex.org/W2131752763
  • https://openalex.org/W2141599568
  • https://openalex.org/W2142074148
  • https://openalex.org/W2149945051
  • https://openalex.org/W2150102617
  • https://openalex.org/W2158139315
  • https://openalex.org/W2184135559
  • https://openalex.org/W2187089797
  • https://openalex.org/W22168010
  • https://openalex.org/W2250879510
  • https://openalex.org/W2251765408
  • https://openalex.org/W2251782722
  • https://openalex.org/W2265846598
  • https://openalex.org/W2270070752
  • https://openalex.org/W2463361494
  • https://openalex.org/W2572474373
  • https://openalex.org/W2593644299
  • https://openalex.org/W2740664249
  • https://openalex.org/W2782397107
  • https://openalex.org/W2788823563
  • https://openalex.org/W2807007025
  • https://openalex.org/W2807683594
  • https://openalex.org/W2888389098
  • https://openalex.org/W2896457183
  • https://openalex.org/W2962739339
  • https://openalex.org/W2963729324
  • https://openalex.org/W2970854433
  • https://openalex.org/W4293495188
  • https://openalex.org/W4294170691
  • https://openalex.org/W4313908941
  • https://openalex.org/W4321001938
  • https://openalex.org/W4385245566
  • https://openalex.org/W630532510