Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning
Creators
- 1. Institute of Information Engineering
- 2. Chinese Academy of Sciences
- 3. University of Chinese Academy of Sciences
- 4. Tencent (China)
- 5. Peking University
Description
Models for Visual Question Answering (VQA) often rely on the spurious correlations, i.e., the language priors, that appear in the biased samples of training set, which make them brittle against the out-of-distribution (OOD) test data.Recent methods have achieved promising progress in overcoming this problem by reducing the impact of biased samples on model training.However, these models reveal a trade-off that the improvements on OOD data severely sacrifice the performance on the indistribution (ID) data (which is dominated by the biased samples).Therefore, we propose a novel contrastive learning approach, MMBS 1 , for building robust VQA models by Making the Most of Biased Samples.Specifically, we construct positive samples for contrastive learning by eliminating the information related to spurious correlation from the original training samples and explore several strategies to use the constructed positive samples for training.Instead of undermining the importance of biased samples in model training, our approach precisely exploits the biased samples for unbiased information that contributes to reasoning.The proposed method is compatible with various VQA backbones.We validate our contributions by achieving competitive performance on the OOD dataset VQA-CP v2 while preserving robust performance on the ID dataset VQA v2.
Translated Descriptions
Translated Description (Arabic)
غالبًا ما تعتمد نماذج الإجابة المرئية على الأسئلة (VQA) على الارتباطات الزائفة، أي سوابق اللغة، التي تظهر في العينات المتحيزة لمجموعة التدريب، مما يجعلها هشة ضد بيانات اختبار عدم التوزيع (OOD). حققت الأساليب الحديثة تقدمًا واعدًا في التغلب على هذه المشكلة عن طريق الحد من تأثير العينات المتحيزة على التدريب النموذجي. ومع ذلك، تكشف هذه النماذج عن مقايضة بأن التحسينات على بيانات OOD تضحي بشدة بالأداء على بيانات عدم التوزيع (ID) (التي تهيمن عليها العينات المتحيزة). لذلك، نقترح نهجًا جديدًا للتعلم التبايني، MMBS 1 ، لبناء نماذج قوية من VQA من خلال تحقيق أقصى استفادة من العينات المتحيزة. على وجه التحديد، نقوم ببناء عينات إيجابية للتعلم التبايني من خلال القضاء على المعلومات المتعلقة بالارتباط الزائف من عينات التدريب الأصلية واستكشاف عدة استراتيجيات لاستخدام العينات الإيجابية المبنية للتدريب. بدلاً من تقويض أهمية العينات المتحيزة في التدريب النموذجي، يستغل نهجنا بدقة العينات المتحيزة للحصول على معلومات غير متحيزة تساهم في التفكير. الطريقة المقترحة متوافقة مع مختلف العمود الفقري لـ VQA. نحن نتحقق من صحة مساهماتنا من خلال تحقيق أداء تنافسي على مجموعة بيانات OOD VQA - CP الإصدار 2 مع الحفاظ على أداء قوي على مجموعة بيانات ID VQA الإصدار 2.Translated Description (French)
Les modèles de réponse visuelle aux questions (VQA) s'appuient souvent sur les corrélations fallacieuses, c'est-à-dire les priorités linguistiques, qui apparaissent dans les échantillons biaisés de l'ensemble de formation, ce qui les rend fragiles par rapport aux données de test hors distribution (OOD ).Les méthodes récentes ont réalisé des progrès prometteurs pour surmonter ce problème en réduisant l'impact des échantillons biaisés sur la formation des modèles.Toutefois, ces modèles révèlent un compromis selon lequel les améliorations sur les données OOD sacrifient gravement les performances sur les données d'indistribution (ID) (qui sont dominées par les échantillons biaisés).Par conséquent, nous proposons une nouvelle approche d'apprentissage contrastif, MMBS 1 , pour construire des modèles VQA robustes en tirant le meilleur parti des échantillons biaisés. Spécifiquement, nous construisons des échantillons positifs pour l'apprentissage contrastif en éliminant les informations liées à la corrélation fallacieuse des échantillons d'entraînement d'origine et explorons plusieurs stratégies pour utiliser les échantillons positifs construits pour la formation. Au lieu de saper l'importance des échantillons biaisés dans la formation au modèle, notre approche exploite précisément les échantillons biaisés pour des informations non biaisées qui contribuent au raisonnement. La méthode proposée est compatible avec divers fondements VQA. Nous validons nos contributions en atteindre des performances compétitives sur l'ensemble de données OOD VQA-CP v2 tout en préservant des performances robustes sur l'ensemble de données ID VQA v2.Translated Description (Spanish)
Los modelos para la respuesta a preguntas visuales (VQA) a menudo se basan en las correlaciones espurias, es decir, los antecedentes lingüísticos, que aparecen en las muestras sesgadas del conjunto de entrenamiento, lo que los hace frágiles frente a los datos de prueba de fuera de distribución (OOD). Los métodos recientes han logrado un progreso prometedor en la superación de este problema al reducir el impacto de las muestras sesgadas en el entrenamiento del modelo. Sin embargo, estos modelos revelan una compensación de que las mejoras en los datos de OOD sacrifican severamente el rendimiento en los datos de indistribución (ID) (que está dominado por las muestras sesgadas). .Por lo tanto, proponemos un nuevo enfoque de aprendizaje contrastivo, MMBS 1 , para construir modelos de VQA sólidos aprovechando al máximo las muestras sesgadas. Específicamente, construimos muestras positivas para el aprendizaje contrastivo eliminando la información relacionada con la correlación falsa de las muestras de entrenamiento originales y exploramos varias estrategias para usar las muestras positivas construidas para el entrenamiento. En lugar de socavar la importancia de las muestras sesgadas en el entrenamiento del modelo, nuestro enfoque explota con precisión las muestras sesgadas para obtener información imparcial que contribuya al razonamiento. El método propuesto es compatible con varios pilares de VQA. Validamos nuestras contribuciones al lograr un rendimiento competitivo en el conjunto de datos OOD VQA-CP v2 mientras se preserva un rendimiento sólido en el conjunto de datos ID VQA v2.Files
2022.findings-emnlp.495.pdf.pdf
Files
(19.1 MB)
Name | Size | Download all |
---|---|---|
md5:cb563d9d6b5a35bea2f1a98eb6932058
|
19.1 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- نحو إجابة قوية للأسئلة البصرية: تحقيق أقصى استفادة من العينات المتحيزة عبر التعلم المتباين
- Translated title (French)
- Vers une réponse visuelle robuste aux questions : tirer le meilleur parti des échantillons biaisés via un apprentissage contrastif
- Translated title (Spanish)
- Hacia una respuesta visual robusta a las preguntas: aprovechar al máximo las muestras sesgadas a través del aprendizaje contrastivo
Identifiers
- Other
- https://openalex.org/W4385574019
- DOI
- 10.18653/v1/2022.findings-emnlp.495