Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA
Creators
- 1. Institute of Information Engineering
- 2. Chinese Academy of Sciences
- 3. University of Chinese Academy of Sciences
- 4. Group Image (Poland)
- 5. Tencent (China)
- 6. Peking University
Description
Visual Question Answering (VQA) models are prone to learn the shortcut solution formed by dataset biases rather than the intended solution.To evaluate the VQA models' reasoning ability beyond shortcut learning, the VQA-CP v2 dataset introduces an answer distribution shift between the training and test set given a question type.In this way, the model cannot use the training set shortcut to perform well on the test set.However, VQA-CP v2 only considers one type of shortcut (from question type to answer) and thus still cannot guarantee that the model relies on the intended solution rather than a solution specific to this shortcut.To overcome this limitation, we propose a new dataset that considers varying types of shortcuts by constructing different distribution shifts in multiple OOD test sets.In addition, we overcome three troubling practices in the use of VQA-CP v2, e.g., selecting models using OOD test sets, and further standardize OOD evaluation procedure.Our benchmark provides a more rigorous and comprehensive testbed for shortcut learning in VQA.We benchmark recent methods and find that methods specifically designed for particular shortcuts fail to simultaneously generalize to our varying OOD test sets.We also systematically study the varying shortcuts and provide several valuable findings, which may promote the exploration of shortcut learning in VQA.
Translated Descriptions
Translated Description (Arabic)
نماذج الإجابة على الأسئلة المرئية (VQA) عرضة لتعلم الحل المختصر الذي تشكله تحيزات مجموعة البيانات بدلاً من الحل المقصود. لتقييم قدرة التفكير في نماذج VQA بما يتجاوز التعلم المختصر، تقدم مجموعة بيانات VQA - CP v2 تحول توزيع الإجابة بين مجموعة التدريب والاختبار مع إعطاء نوع سؤال. وبهذه الطريقة، لا يمكن للنموذج استخدام اختصار مجموعة التدريب لأداء جيد في مجموعة الاختبار. ومع ذلك، فإن VQA - CP v2 يأخذ في الاعتبار نوعًا واحدًا فقط من الاختصارات (من نوع السؤال إلى الإجابة) وبالتالي لا يمكننا ضمان اعتماد النموذج على الحل المقصود بدلاً من حل خاص بهذا الاختصار. للتغلب على هذا القيد، نقترح مجموعة بيانات جديدة تأخذ في الاعتبار أنواعًا مختلفة من الاختصارات من خلال إنشاء تحولات توزيع مختلفة في مجموعات اختبار OOD متعددة. بالإضافة إلى ذلك، نتغلب على ثلاث ممارسات مزعجة في استخدام VQA - CP v2، على سبيل المثال، اختيار النماذج باستخدام مجموعات اختبار OOD، وتوحيد إجراءات تقييم OOD بشكل أكبر. يوفر معيارنا اختبارًا أكثر صرامة وشمولية للتعلم المختصر في VQA. نحن نقيس الأساليب الحديثة ونجد أن الأساليب مصممة خصيصًا تفشل اختصارات معينة في التعميم في وقت واحد على مجموعات اختبار OOD المختلفة لدينا. كما ندرس بشكل منهجي الاختصارات المختلفة ونقدم العديد من النتائج القيمة، والتي قد تعزز استكشاف التعلم المختصر في VQA.Translated Description (French)
Les modèles de réponse visuelle aux questions (VQA) sont enclins à apprendre la solution de raccourci formée par les biais de l'ensemble de données plutôt que la solution prévue. Pour évaluer la capacité de raisonnement des modèles VQA au-delà de l'apprentissage des raccourcis, l'ensemble de données VQA-CP v2 introduit un décalage de la distribution des réponses entre l'ensemble de formation et l'ensemble de test donné un type de question. De cette façon, le modèle ne peut pas utiliser le raccourci de l'ensemble de formation pour bien performer sur l'ensemble de test. Cependant, VQA-CP v2 ne considère qu'un seul type de raccourci (du type de question à la réponse) et ne peut donc toujours pas garantir que le modèle repose sur la solution prévue plutôt que sur une solution spécifique à ce raccourci.Pour surmonter cette limitation, nous proposons un nouvel ensemble de données qui prend en compte différents types de raccourcis en construisant différents changements de distribution dans plusieurs ensembles de tests OOD.En outre, nous surmontons trois pratiques troublantes dans l'utilisation de VQA-CP v2, par exemple, la sélection de modèles à l'aide d'ensembles de tests OOD et la normalisation de la procédure d'évaluation OOD.Notre benchmark fournit un banc d'essai plus rigoureux et complet pour l'apprentissage des raccourcis dans VQA.Nous comparons les méthodes récentes et constatons que les méthodes spécifiquement conçues pour des raccourcis particuliers ne parviennent pas à généraliser simultanément à nos différents ensembles de tests OOD. Nous étudions également systématiquement les différents raccourcis et fournissons plusieurs résultats précieux, qui peuvent promouvoir l'exploration de l'apprentissage des raccourcis dans VQA.Translated Description (Spanish)
Los modelos de respuesta a preguntas visuales (VQA) son propensos a aprender la solución de acceso directo formada por sesgos del conjunto de datos en lugar de la solución prevista. Para evaluar la capacidad de razonamiento de los modelos de VQA más allá del aprendizaje de acceso directo, el conjunto de datos VQA-CP v2 introduce un cambio de distribución de respuestas entre el conjunto de entrenamiento y prueba dado un tipo de pregunta. De esta manera, el modelo no puede usar el acceso directo del conjunto de entrenamiento para desempeñarse bien en el conjunto de prueba. Sin embargo, VQA-CP v2 solo considera un tipo de acceso directo (del tipo de pregunta a la respuesta) y, por lo tanto, aún no podemos garantizar que el modelo se base en la solución prevista en lugar de en una solución específica para este atajo. Para superar esta limitación, proponemos un nuevo conjunto de datos que considere diferentes tipos de atajos mediante la construcción de diferentes cambios de distribución en múltiples conjuntos de pruebas OOD. Además, superamos tres prácticas problemáticas en el uso de VQA-CP v2, por ejemplo, seleccionar modelos utilizando conjuntos de pruebas OOD y estandarizar aún más el procedimiento de evaluación OOD. Nuestro punto de referencia proporciona un banco de pruebas más riguroso y completo para el aprendizaje de atajos en VQA.Comprobamos métodos recientes y encontramos que los métodos diseñados específicamente para atajos particulares no se generalizan simultáneamente a nuestros diferentes conjuntos de pruebas OOD. También estudiamos sistemáticamente los diferentes atajos y proporcionamos varios hallazgos valiosos, que pueden promover la exploración del aprendizaje de atajos en VQA.Files
2022.findings-emnlp.271.pdf.pdf
Files
(8.5 MB)
Name | Size | Download all |
---|---|---|
md5:b309e2555acde96d6461eecc81e80852
|
8.5 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- اللغة السابقة ليست هي الاختصار الوحيد: معيار للتعلم المختصر في VQA
- Translated title (French)
- Language Prior Is Not the Only Shortcut : A Benchmark for Shortcut Learning in VQA
- Translated title (Spanish)
- El lenguaje previo no es el único atajo: un punto de referencia para el aprendizaje de atajos en VQA
Identifiers
- Other
- https://openalex.org/W4385573412
- DOI
- 10.18653/v1/2022.findings-emnlp.271
References
- https://openalex.org/W3035561630