Published January 1, 2022 | Version v1
Publication Open

TRIPS: Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection

  • 1. Peking University
  • 2. Alibaba Group (Cayman Islands)

Description

Vision Transformers (ViTs) have been widely used in large-scale Vision and Language Pretraining (VLP) models.Though previous VLP works have proved the effectiveness of ViTs, they still suffer from computational efficiency brought by the long visual sequence.To tackle this problem, in this paper, we propose an efficient vision-and-language pre-training model with Text-Relevant Image Patch Selection, namely TRIPS, which reduces the visual sequence progressively with a text-guided patchselection layer in the visual backbone for efficient training and inference.The patchselection layer can dynamically compute textdependent visual attention to identify the attentive image tokens with text guidance and fuse inattentive ones in an end-to-end manner.Meanwhile, TRIPS does not introduce extra parameters to ViTs.Experimental results on a variety of popular benchmark datasets demonstrate that TRIPS gain a speedup of 40% over previous similar VLP models, yet with competitive or better downstream task performance.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تم استخدام محولات الرؤية (ViTs) على نطاق واسع في نماذج التدريب المسبق للرؤية واللغة على نطاق واسع. على الرغم من أن أعمال VLP السابقة أثبتت فعالية ViTs، إلا أنها لا تزال تعاني من الكفاءة الحسابية الناجمة عن التسلسل البصري الطويل. لمعالجة هذه المشكلة، في هذه الورقة، نقترح نموذجًا فعالًا للتدريب المسبق للرؤية واللغة مع اختيار تصحيح الصور ذات الصلة بالنص، أي TRIPS، مما يقلل من التسلسل البصري تدريجيًا باستخدام طبقة اختيار تصحيح موجهة بالنص في العمود الفقري البصري للتدريب والاستدلال الفعال. يمكن لطبقة التحديد التصحيحي أن تحسب ديناميكيًا الانتباه البصري المعتمد على النص لتحديد الرموز المميزة للصورة المنتبهة مع توجيه النص ودمج الرموز غير المنتبهة بطريقة من طرف إلى طرف. في الوقت نفسه، لا تقدم TRIPS معلمات إضافية إلى ViTs. نتائج تجريبية على مجموعة متنوعة من مجموعات البيانات المرجعية الشائعة توضح أن الرحلات تكتسب سرعة تصل إلى 40 ٪ مقارنة بنماذج VLP السابقة، ولكن مع أداء أفضل أو أداء أفضل للمهام.

Translated Description (French)

Les transformateurs de vision (ViT) ont été largement utilisés dans les modèles de pré-entraînement de la vision et du langage (VLP) à grande échelle. Bien que les travaux VLP précédents aient prouvé l'efficacité des ViT, ils souffrent toujours de l'efficacité de calcul apportée par la longue séquence visuelle. Pour résoudre ce problème, dans cet article, nous proposons un modèle de pré-entraînement efficace en vision et en langage avec sélection de correctifs d'image pertinents pour le texte, à savoir TRIPS, qui réduit progressivement la séquence visuelle avec une couche de sélection de correctifs guidée par le texte dans la colonne vertébrale visuelle pour un entraînement et une inférence efficaces. La couche de sélection de correctifs peut calculer dynamiquement l'attention visuelle dépendante du texte pour identifier les jetons d'image attentifs avec guidage du texte et fusionner les inattentifs de bout en bout. Pendant ce temps, TRIPS n'introduit pas de paramètres supplémentaires à ViTs.Les résultats expérimentaux sur une variété de données de référence populaires démontrent que les TRIPS gagnent une vitesse de 40% par rapport aux modèles VLP similaires précédents, mais avec des performances de tâche compétitives ou meilleures en aval.

Translated Description (Spanish)

Los transformadores de visión (ViT) se han utilizado ampliamente en modelos de preentrenamiento de visión y lenguaje (VLP) a gran escala. Aunque los trabajos de VLP anteriores han demostrado la efectividad de los ViT, todavía sufren de eficiencia computacional provocada por la larga secuencia visual. Para abordar este problema, en este documento, proponemos un modelo eficiente de preentrenamiento de visión y lenguaje con selección de parches de imagen relevante para el texto, a saber, TRIPS, que reduce la secuencia visual progresivamente con una capa de selección de parches guiada por texto en la columna vertebral visual para un entrenamiento e inferencia eficientes. La capa de selección de parches puede calcular dinámicamente la atención visual dependiente del texto para identificar los tokens de imagen atentos con guía de texto y fusionar los inatentos de una manera de extremo a extremo. Mientras tanto, TRIPS no introduce parámetros adicionales a los ViT. Los resultados experimentales en una variedad de conjuntos de datos de referencia populares demuestran que TRIPS ganan un aumento de velocidad del 40% sobre los modelos de VLP similares anteriores, pero con un rendimiento competitivo o mejor en las tareas posteriores.

Files

2022.emnlp-main.273.pdf.pdf

Files (1.2 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:6c801b5d10730755d05ce97e3b4b84c6
1.2 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
الرحلات: تدريب مسبق فعال على الرؤية واللغة مع اختيار تصحيح الصور ذات الصلة بالنص
Translated title (French)
VOYAGES : Préformation efficace à la vision et au langage avec sélection de correctifs d'image pertinents pour le texte
Translated title (Spanish)
VIAJES: Preentrenamiento eficiente de visión y lenguaje con selección de parches de imágenes relevantes para el texto

Identifiers

Other
https://openalex.org/W4385572899
DOI
10.18653/v1/2022.emnlp-main.273

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China