Multimodal Transformer for Multimodal Machine Translation
Description
Multimodal Machine Translation (MMT) aims to introduce information from other modality, generally static images, to improve the translation quality.Previous works propose various incorporation methods, but most of them do not consider the relative importance of multiple modalities.In MMT, equally treating text and images may encode too much irrelevant information from images which may introduce noise.In this paper, we propose the multimodal self-attention in Transformer to solve the issues above.The proposed method learns the representations of images based on the text, which avoids encoding irrelevant information in images.Experiments and visualization analysis demonstrate that our model benefits from visual information and substantially outperforms previous works and competitive baselines in terms of various metrics.
Translated Descriptions
Translated Description (Arabic)
تهدف الترجمة الآلية متعددة الوسائط (MMT) إلى تقديم معلومات من طريقة أخرى، صور ثابتة بشكل عام، لتحسين جودة الترجمة. تقترح الأعمال السابقة طرق دمج مختلفة، لكن معظمها لا يأخذ في الاعتبار الأهمية النسبية للطرائق المتعددة. في الترجمة الآلية متعددة الوسائط (MMT)، قد يؤدي التعامل مع النص والصور بالتساوي إلى ترميز الكثير من المعلومات غير ذات الصلة من الصور التي قد تؤدي إلى الضوضاء. في هذه الورقة، نقترح الانتباه الذاتي متعدد الوسائط في المحول لحل المشكلات المذكورة أعلاه. تتعلم الطريقة المقترحة تمثيلات الصور بناءً على النص، والتي تتجنب ترميز المعلومات غير ذات الصلة في الصور. تثبت التجارب وتحليل التصور أن نموذجنا يستفيد من المعلومات المرئية ويتفوق بشكل كبير على الأعمال السابقة وخطوط الأساس التنافسية من حيث المقاييس المختلفة.Translated Description (French)
La traduction automatique multimodale (MMT) vise à introduire des informations provenant d'autres modalités, généralement des images statiques, afin d'améliorer la qualité de la traduction. Les travaux précédents proposent diverses méthodes d'incorporation, mais la plupart d'entre elles ne tiennent pas compte de l'importance relative des modalités multiples. Dans la MMT, traiter également le texte et les images peut coder trop d'informations non pertinentes provenant d'images qui peuvent introduire du bruit. Dans cet article, nous proposons l'auto-attention multimodale dans Transformer pour résoudre les problèmes ci-dessus. La méthode proposée apprend les représentations d'images basées sur le texte, ce qui évite de coder des informations non pertinentes dans les images. Les expériences et l'analyse de visualisation démontrent que notre modèle bénéficie d'informations visuelles et surpasse considérablement les travaux antérieurs et les lignes de base concurrentielles en termes de diverses métriques.Translated Description (Spanish)
La Traducción Automática Multimodal (TMM) tiene como objetivo introducir información de otra modalidad, generalmente imágenes estáticas, para mejorar la calidad de la traducción. Los trabajos anteriores proponen varios métodos de incorporación, pero la mayoría de ellos no consideran la importancia relativa de múltiples modalidades. En la TMM, tratar por igual texto e imágenes puede codificar demasiada información irrelevante de imágenes que pueden introducir ruido. En este documento, proponemos la autoatención multimodal en Transformer para resolver los problemas anteriores. El método propuesto aprende las representaciones de imágenes basadas en el texto, lo que evita codificar información irrelevante en imágenes. Los experimentos y el análisis de visualización demuestran que nuestro modelo se beneficia de la información visual y supera sustancialmente los trabajos anteriores y las líneas de base competitivas en términos de diversas métricas.Files
2020.acl-main.400.pdf.pdf
Files
(226 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:5360980bad11bf9723da89687501effc
|
226 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- محول متعدد الوسائط للترجمة الآلية متعددة الوسائط
- Translated title (French)
- Transformateur multimodal pour la traduction automatique multimodale
- Translated title (Spanish)
- Transformador Multimodal para Traducción Automática Multimodal
Identifiers
- Other
- https://openalex.org/W3034773362
- DOI
- 10.18653/v1/2020.acl-main.400
References
- https://openalex.org/W2101105183
- https://openalex.org/W2133459682
- https://openalex.org/W2509282593
- https://openalex.org/W2581101319
- https://openalex.org/W2593341061
- https://openalex.org/W2889903020
- https://openalex.org/W2903343986
- https://openalex.org/W2950207430
- https://openalex.org/W2950886580
- https://openalex.org/W2963216553
- https://openalex.org/W2963331233
- https://openalex.org/W2963403868
- https://openalex.org/W2963988211
- https://openalex.org/W2964121744