Published January 1, 2022 | Version v1
Publication Open

Realistic Data Augmentation Framework for Enhancing Tabular Reasoning

  • 1. Indian Institute of Technology Guwahati
  • 2. University of Utah
  • 3. Indian Institute of Technology Kharagpur
  • 4. Bloomberg (United States)

Description

Existing approaches to constructing training data for Natural Language Inference (NLI) tasks, such as for semi-structured table reasoning, are either via crowdsourcing or fully automatic methods.However, the former is expensive and time-consuming and thus limits scale, and the latter often produces naive examples that may lack complex reasoning.This paper develops a realistic semi-automated framework for data augmentation for tabular inference.Instead of manually generating a hypothesis for each table, our methodology generates hypothesis templates transferable to similar tables.In addition, our framework entails the creation of rational counterfactual tables based on human written logical constraints and premise paraphrasing.For our case study, we use the IN-FOTABS (Gupta et al., 2020), which is an entitycentric tabular inference dataset.We observed that our framework could generate human-like tabular inference examples, which could benefit training data augmentation, especially in the scenario with limited supervision.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

النهج الحالية لبناء بيانات التدريب لمهام استدلال اللغة الطبيعية (NLI)، مثل الاستدلال شبه المنظم للجدول، إما عن طريق التعهيد الجماعي أو الطرق التلقائية بالكامل. ومع ذلك، فإن الأول مكلف ويستغرق وقتًا طويلاً وبالتالي يحد من الحجم، وغالبًا ما ينتج الأخير أمثلة ساذجة قد تفتقر إلى الاستدلال المعقد. تطور هذه الورقة إطارًا واقعيًا شبه آلي لزيادة البيانات للاستدلال الجدولي. بدلاً من توليد فرضية يدويًا لكل جدول، تولد منهجيتنا قوالب فرضية قابلة للتحويل إلى جداول مماثلة. بالإضافة إلى ذلك، يستلزم إطارنا إنشاء جداول واقعية مضادة عقلانية تستند إلى قيود منطقية مكتوبة بشرية وإعادة صياغة الفرضية. بالنسبة لدراسة حالتنا، نستخدم IN - OTABS (Gupta et al.، 2020)، وهو عبارة عن مجموعة بيانات جدولية مركزية للكيانات. لاحظنا أن إطارنا يمكن أن يولد أمثلة جدولية شبيهة بالإنسان، والتي يمكن أن تفيد في زيادة بيانات التدريب، خاصة في السيناريو مع الإشراف المحدود.

Translated Description (French)

Les approches existantes pour construire des données de formation pour les tâches d'inférence de langage naturel (INL), telles que pour le raisonnement de table semi-structurée, sont soit via des méthodes de crowdsourcing soit entièrement automatiques. Cependant, la première est coûteuse et prend du temps et limite donc l'échelle, et cette dernière produit souvent des exemples naïfs qui peuvent manquer de raisonnement complexe. Cet article développe un cadre semi-automatisé réaliste pour l'augmentation des données pour l'inférence tabulaire. Au lieu de générer manuellement une hypothèse pour chaque table, notre méthodologie génère des modèles d'hypothèse transférables à des tables similaires. En outre, notre cadre implique la création de tables contrefactuelles rationnelles basées sur des contraintes logiques écrites humaines et une paraphrase des prémisses. Pour notre étude de cas, nous utilisons le IN-FOTABS (Gupta et al., 2020), qui est un ensemble de données d'inférence tabulaire entitécentrique. Nous avons observé que notre cadre pourrait générer des exemples d'inférence tabulaire de type humain, ce qui pourrait bénéficier à l'augmentation des données de formation, en particulier dans le scénario avec une supervision limitée.

Translated Description (Spanish)

Los enfoques existentes para construir datos de entrenamiento para tareas de Inferencia de Lenguaje Natural (NLI), como el razonamiento de tablas semiestructuradas, son a través de crowdsourcing o métodos totalmente automáticos. Sin embargo, el primero es costoso y requiere mucho tiempo y, por lo tanto, limita la escala, y el segundo a menudo produce ejemplos ingenuos que pueden carecer de razonamiento complejo. Este documento desarrolla un marco semiautomático realista para el aumento de datos para la inferencia tabular. En lugar de generar manualmente una hipótesis para cada tabla, nuestra metodología genera plantillas de hipótesis transferibles a tablas similares. Además, nuestro marco implica la creación de tablas contrafácticas racionales basadas en restricciones lógicas escritas por humanos y parafraseo de premisas. Para nuestro estudio de caso, utilizamos los IN-FOTABS (Gupta et al., 2020), que es un conjunto de datos de inferencia tabular centrado en entidades. Observamos que nuestro marco podría generar ejemplos de inferencia tabular similares a los humanos, lo que podría beneficiar el aumento de datos de entrenamiento, especialmente en el escenario con supervisión limitada.

Files

2022.findings-emnlp.324.pdf.pdf

Files (643.1 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:f53a41b78ce50ee2cf49b31fabed3695
643.1 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
إطار تعزيز البيانات الواقعي لتعزيز الاستدلال المجدول
Translated title (French)
Cadre réaliste d'augmentation des données pour améliorer le raisonnement tabulaire
Translated title (Spanish)
Marco realista de aumento de datos para mejorar el razonamiento tabular

Identifiers

Other
https://openalex.org/W4385574350
DOI
10.18653/v1/2022.findings-emnlp.324

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2586483032
  • https://openalex.org/W2798665661
  • https://openalex.org/W2890431379
  • https://openalex.org/W2899286282
  • https://openalex.org/W2952984539
  • https://openalex.org/W2962736243
  • https://openalex.org/W2962843521
  • https://openalex.org/W2963159690
  • https://openalex.org/W2963341956
  • https://openalex.org/W2963899988
  • https://openalex.org/W2970442950
  • https://openalex.org/W2982756474
  • https://openalex.org/W2983984338
  • https://openalex.org/W3008881932
  • https://openalex.org/W3034556525
  • https://openalex.org/W3034999214
  • https://openalex.org/W3035140194
  • https://openalex.org/W3035231859
  • https://openalex.org/W3098495697
  • https://openalex.org/W3101082165
  • https://openalex.org/W3102018700
  • https://openalex.org/W3103118054
  • https://openalex.org/W3103667349
  • https://openalex.org/W3103801878
  • https://openalex.org/W3153051631
  • https://openalex.org/W3155695283
  • https://openalex.org/W3158303960
  • https://openalex.org/W3166298099
  • https://openalex.org/W3166417463
  • https://openalex.org/W3170806096
  • https://openalex.org/W3173586048
  • https://openalex.org/W3174986053
  • https://openalex.org/W3182778088
  • https://openalex.org/W3185011771
  • https://openalex.org/W3186545525
  • https://openalex.org/W3196731672
  • https://openalex.org/W4221009220
  • https://openalex.org/W4221163895
  • https://openalex.org/W4281826654
  • https://openalex.org/W4285171787
  • https://openalex.org/W4287854436