Published September 23, 2023 | Version v1
Publication

Exploring Composite Indexes for Domain Adaptation in Neural Machine Translation

  • 1. Ho Chi Minh City University of Science
  • 2. Vietnam National University Ho Chi Minh City

Description

Domain adaptation in neural machine translation (NMT) tasks often involves working with datasets that have a different distribution from the training data. In such scenarios, k-nearest-neighbor machine translation (kNN-MT) has been shown to be effective in retrieving relevant information from large datastores. However, the high-dimensional context vectors of large neural machine translation model result in high computational costs for distance computation and storage. To address this issue, index optimization techniques have been proposed, including the use of inverted file index (IVF) and product vector quantization (PQ), called IVFPQ. In this paper, we explore the recent index techniques for efficient machine translation domain adaptation and combine multiple index structures to improve the efficiency of nearest-neighbor search in domain adaptation datasets for machine translation task. Specifically, we evaluate the effectiveness when combining optimized product quantization (OPQ) and hierarchical navigable small-world (HNSW) indexing with IVFPQ. Our study aims to provide insights into the most suitable composite index methods for efficient nearest-neighbor search in domain adaptation datasets, with a focus on improving both accuracy and speed.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

غالبًا ما يتضمن تكييف المجال في مهام الترجمة الآلية العصبية (NMT) العمل مع مجموعات البيانات التي لها توزيع مختلف عن بيانات التدريب. في مثل هذه السيناريوهات، ثبت أن الترجمة الآلية k - nearest - neighbor (kNN - MT) فعالة في استرداد المعلومات ذات الصلة من مخازن البيانات الكبيرة. ومع ذلك، فإن متجهات السياق عالية الأبعاد لنموذج الترجمة الآلية العصبية الكبيرة تؤدي إلى ارتفاع التكاليف الحسابية لحساب المسافة والتخزين. لمعالجة هذه المشكلة، تم اقتراح تقنيات تحسين المؤشر، بما في ذلك استخدام مؤشر الملف المقلوب (IVF) وتكميم متجه المنتج (PQ)، والذي يسمى IVFPQ. في هذه الورقة، نستكشف تقنيات الفهرس الحديثة لتكييف مجال الترجمة الآلية بكفاءة والجمع بين هياكل الفهرس المتعددة لتحسين كفاءة البحث الأقرب إلى الجار في مجموعات بيانات تكييف المجال لمهمة الترجمة الآلية. على وجه التحديد، نقوم بتقييم الفعالية عند الجمع بين تكميم المنتج الأمثل (OPQ) والفهرسة الهرمية للعالم الصغير القابل للملاحة (HNSW) مع IVFPQ. تهدف دراستنا إلى تقديم رؤى حول أنسب طرق الفهرس المركب للبحث الفعال عن الجار الأقرب في مجموعات بيانات تكييف المجال، مع التركيز على تحسين كل من الدقة والسرعة.

Translated Description (French)

L'adaptation du domaine dans les tâches de traduction automatique neuronale (NMT) implique souvent de travailler avec des ensembles de données qui ont une distribution différente des données de formation. Dans de tels scénarios, la traduction automatique k-nearest-neighbor (kNN-MT) s'est révélée efficace pour récupérer des informations pertinentes dans de grandes banques de données. Cependant, les vecteurs de contexte de grande dimension du grand modèle de traduction automatique neuronale entraînent des coûts de calcul élevés pour le calcul et le stockage de la distance. Pour résoudre ce problème, des techniques d'optimisation d'index ont été proposées, y compris l'utilisation de l'index de fichier inversé (FIV) et de la quantification vectorielle de produit (PQ), appelée IVFPQ. Dans cet article, nous explorons les techniques d'indexation récentes pour une adaptation efficace du domaine de traduction automatique et combinons plusieurs structures d'indexation pour améliorer l'efficacité de la recherche du plus proche voisin dans les ensembles de données d'adaptation du domaine pour la tâche de traduction automatique. Plus précisément, nous évaluons l'efficacité lors de la combinaison de la quantification optimisée des produits (OPQ) et de l'indexation hiérarchique du petit monde navigable (HNSW) avec IVFPQ. Notre étude vise à fournir des informations sur les méthodes d'indice composite les plus appropriées pour une recherche efficace du plus proche voisin dans les ensembles de données d'adaptation de domaine, en mettant l'accent sur l'amélioration de la précision et de la vitesse.

Translated Description (Spanish)

La adaptación del dominio en las tareas de traducción automática neuronal (NMT) a menudo implica trabajar con conjuntos de datos que tienen una distribución diferente de los datos de entrenamiento. En tales escenarios, se ha demostrado que la traducción automática k-nearest-neighbor (kNN-MT) es efectiva para recuperar información relevante de grandes almacenes de datos. Sin embargo, los vectores de contexto de alta dimensión del modelo de traducción automática neuronal grande dan como resultado altos costes computacionales para el cálculo y almacenamiento a distancia. Para abordar este problema, se han propuesto técnicas de optimización de índices, incluido el uso del índice de archivos invertidos (FIV) y la cuantificación de vectores de productos (PQ), llamada IVFPQ. En este documento, exploramos las técnicas de índice recientes para la adaptación eficiente del dominio de traducción automática y combinamos múltiples estructuras de índice para mejorar la eficiencia de la búsqueda del vecino más cercano en los conjuntos de datos de adaptación de dominio para la tarea de traducción automática. Específicamente, evaluamos la efectividad al combinar la cuantificación optimizada de productos (OPQ) y la indexación jerárquica de pequeños mundos navegables (HNSW) con IVFPQ. Nuestro estudio tiene como objetivo proporcionar información sobre los métodos de índice compuesto más adecuados para la búsqueda eficiente del vecino más cercano en conjuntos de datos de adaptación de dominio, con un enfoque en mejorar tanto la precisión como la velocidad.

Additional details

Additional titles

Translated title (Arabic)
استكشاف الفهارس المركبة لتكييف المجال في الترجمة الآلية العصبية
Translated title (French)
Exploration des index composites pour l'adaptation des domaines dans la traduction automatique neuronale
Translated title (Spanish)
Exploración de índices compuestos para la adaptación de dominios en la traducción automática neuronal

Identifiers

Other
https://openalex.org/W4386220920
DOI
10.1142/s2196888823500148

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W2077815765
  • https://openalex.org/W2124509324
  • https://openalex.org/W2131846894
  • https://openalex.org/W2148554573
  • https://openalex.org/W2561274697
  • https://openalex.org/W2756978580
  • https://openalex.org/W2758310181
  • https://openalex.org/W2760452458
  • https://openalex.org/W2788330850
  • https://openalex.org/W2963469388
  • https://openalex.org/W2998702515
  • https://openalex.org/W4205694376
  • https://openalex.org/W4244017338
  • https://openalex.org/W4285170631