Mind the Context: The Impact of Contextualization in Neural Module Networks for Grounding Visual Referring Expressions
- 1. Amazon (United States)
- 2. Beijing Academy of Artificial Intelligence
- 3. Tsinghua University
- 4. Peking University
- 5. Meta (Israel)
- 6. McGill University
Description
Neural module networks (NMN) are a popular approach for grounding visual referring expressions.Prior implementations of NMN use pre-defined and fixed textual inputs in their module instantiation.This necessitates a large number of modules as they lack the ability to share weights and exploit associations between similar textual contexts (e.g."dark cube on the left" vs. "black cube on the left").In this work, we address these limitations and evaluate the impact of contextual clues in improving the performance of NMN models.First, we address the problem of fixed textual inputs by parameterizing the module arguments.This substantially reduce the number of modules in NMN by up to 75% without any loss in performance.Next we propose a method to contextualize our parameterized model to enhance the module's capacity in exploiting the visiolinguistic associations.Our model outperforms the state-of-the-art NMN model on CLEVR-Ref+ dataset with +8.1% improvement in accuracy on the single-referent test set and +4.3% on the full test set.Additionally, we demonstrate that contextualization provides +11.2% and +1.7% improvements in accuracy over prior NMN models on CLO-SURE and NLVR2.We further evaluate the impact of our contextualization by constructing a contrast set for CLEVR-Ref+, which we call CC-Ref+.We significantly outperform the baselines by as much as +10.4% absolute accuracy on CC-Ref+, illustrating the generalization skills of our approach.
Translated Descriptions
Translated Description (Arabic)
تعد شبكات الوحدات العصبية (NMN) نهجًا شائعًا لتأسيس تعبيرات الإحالة المرئية. تستخدم التطبيقات السابقة لـ NMN مدخلات نصية محددة مسبقًا وثابتة في إنشاء مثيلاتها. وهذا يتطلب عددًا كبيرًا من الوحدات لأنها تفتقر إلى القدرة على مشاركة الأوزان واستغلال الارتباطات بين السياقات النصية المماثلة (مثل"المكعب الداكن على اليسار" مقابل "المكعب الأسود على اليسار "). في هذا العمل، نعالج هذه القيود ونقيم تأثير القرائن السياقية في تحسين أداء نماذج NMN. أولاً، نعالج مشكلة المدخلات النصية الثابتة من خلال تحديد معلمات وسيطات الوحدة. هذا يقلل بشكل كبير من عدد الوحدات في NMN بنسبة تصل إلى 75 ٪ دون أي خسارة في الأداء. بعد ذلك، نقترح طريقة لتحديد سياق نموذجنا المحدد لتعزيز قدرة الوحدة على استغلال الارتباطات اللغوية المرئية. يتفوق نموذجنا على نموذج NMN المتطور على مجموعة بيانات CLEVR - Ref + مع تحسن بنسبة +8.1 ٪ في الدقة في مجموعة الاختبار ذات المرجع الواحد و +4.3 ٪ في مجموعة الاختبار الكاملة. بالإضافة إلى ذلك، نثبت أن تحديد السياق يوفر تحسينات بنسبة +11.2 ٪ و +1.7 ٪ في الدقة مقارنة بـ NMN السابقة نماذج على CLO - SURE و NLVR2. نقوم بتقييم تأثير سياقاتنا من خلال إنشاء مجموعة تباين لـ CLEVR - المرجع +، والتي نسميها CC - المرجع +. نحن نتفوق بشكل كبير على خطوط الأساس بنسبة تصل إلى +10.4 ٪ دقة مطلقة على CC - المرجع +، مما يوضح مهارات التعميم لنهجنا.Translated Description (French)
Les réseaux de modules neuronaux (NMN) sont une approche populaire pour la mise à la terre des expressions visuelles de référence. Les implémentations antérieures de NMN utilisent des entrées textuelles prédéfinies et fixes dans leur instanciation de module. Cela nécessite un grand nombre de modules car ils n'ont pas la capacité de partager des poids et d'exploiter des associations entre des contextes textuels similaires (par exemple, « cube sombre à gauche » contre « cube noir à gauche »). Dans ce travail, nous abordons ces limitations et évaluons l'impact des indices contextuels dans l'amélioration des performances des modèles NMN. Premièrement, nous abordons le problème des entrées textuelles fixes en paramétrant les arguments du module. Cela réduit considérablement le nombre de modules dans NMN jusqu'à 75% sans aucune perte de performance. Ensuite, nous proposons une méthode pour contextualiser notre modèle paramétré afin d'améliorer la capacité du module à exploiter les associations visiolinguistiques. Notre modèle surpasse le modèle NMN de pointe sur l'ensemble de données CLEVR-Ref + avec une amélioration de la précision de +8,1% sur l'ensemble de test à référence unique et de +4,3% sur l'ensemble de test complet. De plus, nous démontrons que la contextualisation fournit des améliorations de la précision de +11,2% et +1,7% par rapport au NMN précédent modèles sur CLO-SURE et NLVR2. Nous évaluons en outre l'impact de notre contextualisation en construisant un ensemble de contraste pour CLEVR-Ref +, que nous appelons CC-Ref+. Nous surpassons considérablement les lignes de base par une précision absolue de +10,4% sur CC-Ref +, illustrant les compétences de généralisation de notre approche.Translated Description (Spanish)
Las redes de módulos neuronales (NMN) son un enfoque popular para fundamentar expresiones de referencia visuales. Las implementaciones anteriores de NMN utilizan entradas textuales predefinidas y fijas en su instanciación de módulos. Esto requiere una gran cantidad de módulos, ya que carecen de la capacidad de compartir pesos y explotar asociaciones entre contextos textuales similares (por ejemplo, "cubo oscuro a la izquierda" frente a "cubo negro a la izquierda"). En este trabajo, abordamos estas limitaciones y evaluamos el impacto de las pistas contextuales en la mejora del rendimiento de los modelos NMN. Primero, abordamos el problema de las entradas textuales fijas mediante la parametrización de los argumentos del módulo. Esto reduce sustancialmente el número de módulos en NMN hasta en un 75% sin ninguna pérdida de rendimiento. A continuación, proponemos un método para contextualizar nuestro modelo parametrizado para mejorar la capacidad del módulo para explotar las asociaciones visiolingüísticas. Nuestro modelo supera el modelo NMN de última generación en el conjunto de datos CLEVR-Ref + con una mejora del +8,1% en la precisión en el conjunto de pruebas de referencia única y del +4,3% en el conjunto de pruebas completo. Además, demostramos que la contextualización proporciona mejoras del +11,2% y del +1,7% en la precisión con respecto a la NMN anterior modelos en CLO-SURE y NLVR2. Evaluamos aún más el impacto de nuestra contextualización mediante la construcción de un conjunto de contrastes paraCLEVR-Ref +, que llamamos CC-Ref+. Superamos significativamente las líneas de base en hasta un +10.4% de precisión absoluta en CC-Ref +, lo que ilustra las habilidades de generalización de nuestro enfoque.Files
2021.emnlp-main.516.pdf.pdf
Files
(1.6 MB)
Name | Size | Download all |
---|---|---|
md5:f4f677f1fd5c11a070630a985dd05d5b
|
1.6 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- فكر في السياق: تأثير السياق في شبكات الوحدات العصبية لتأريض تعبيرات الإحالة المرئية
- Translated title (French)
- Attention au contexte : l'impact de la contextualisation dans les réseaux de modules neuronaux pour la mise à la terre des expressions visuelles de référence
- Translated title (Spanish)
- Cuidado con el contexto: el impacto de la contextualización en las redes de módulos neuronales para la conexión a tierra de las expresiones visuales de referencia
Identifiers
- Other
- https://openalex.org/W3200172683
- DOI
- 10.18653/v1/2021.emnlp-main.516
References
- https://openalex.org/W2185175083
- https://openalex.org/W2251512949
- https://openalex.org/W2471164729
- https://openalex.org/W2558535589
- https://openalex.org/W2561715562
- https://openalex.org/W2565552376
- https://openalex.org/W2907143950
- https://openalex.org/W2923622379
- https://openalex.org/W2962716332
- https://openalex.org/W2962749469
- https://openalex.org/W2963109634
- https://openalex.org/W2963143606
- https://openalex.org/W2963224792
- https://openalex.org/W2963530300
- https://openalex.org/W2964118342
- https://openalex.org/W2970231061
- https://openalex.org/W2998631105
- https://openalex.org/W3034381157
- https://openalex.org/W3034578524