Published January 1, 2021 | Version v1
Publication Open

Text AutoAugment: Learning Compositional Augmentation Policy for Text Classification

  • 1. Peking University
  • 2. Tencent (China)

Description

Data augmentation aims to enrich training samples for alleviating the overfitting issue in low-resource or class-imbalanced situations.Traditional methods first devise task-specific operations such as Synonym Substitute, then preset the corresponding parameters such as the substitution rate artificially, which require a lot of prior knowledge and are prone to fall into the sub-optimum.Besides, the number of editing operations is limited in the previous methods, which decreases the diversity of the augmented data and thus restricts the performance gain.To overcome the above limitations, we propose a framework named Text AutoAugment (TAA) to establish a compositional and learnable paradigm for data augmentation.We regard a combination of various operations as an augmentation policy and utilize an efficient Bayesian Optimization algorithm to automatically search for the best policy, which substantially improves the generalization capability of models.Experiments on six benchmark datasets show that TAA boosts classification accuracy in low-resource and class-imbalanced regimes by an average of 8.8% and 9.7%, respectively, outperforming strong baselines.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تهدف زيادة البيانات إلى إثراء عينات التدريب للتخفيف من مشكلة الإفراط في التجهيز في المواقف منخفضة الموارد أو غير المتوازنة. تقوم الطرق التقليدية أولاً بوضع عمليات خاصة بالمهام مثل بديل المرادفات، ثم تعيين المعلمات المقابلة مسبقًا مثل معدل الاستبدال بشكل مصطنع، والتي تتطلب الكثير من المعرفة المسبقة وتكون عرضة للوقوع في المستوى دون الأمثل. إلى جانب ذلك، فإن عدد عمليات التحرير محدودة في الطرق السابقة، مما يقلل من تنوع البيانات المعززة وبالتالي يحد من مكاسب الأداء. للتغلب على القيود المذكورة أعلاه، نقترح إطارًا يسمى Text AutoAugment (TAA) لإنشاء نموذج تركيبي وقابل للتعلم لزيادة البيانات. نحن نعتبر مزيجًا من العمليات المختلفة كسياسة زيادة ونستخدم خوارزمية تحسين Bayesian الفعالة للبحث تلقائيًا عن أفضل سياسة، مما يحسن بشكل كبير من قدرة التعميم للنماذج. تظهر التجارب على ست مجموعات بيانات مرجعية أن TAA تعزز التصنيف في أنظمة منخفضة الموارد ومتوازنة المحاذاة بمتوسط 8.8 ٪ و 8.7 ٪ على التوالي، من خطوط الأداء الأساسية القوية.

Translated Description (French)

L'augmentation des données vise à enrichir les échantillons d'entraînement pour atténuer le problème du surajustement dans les situations de ressources limitées ou de classes déséquilibrées.Les méthodes traditionnelles conçoivent d'abord des opérations spécifiques aux tâches telles que le remplacement de synonymes, puis préréglent artificiellement les paramètres correspondants tels que le taux de substitution, qui nécessitent beaucoup de connaissances préalables et sont susceptibles de tomber dans le sous-optimum.En outre, le nombre d'opérations d'édition est limité dans les méthodes précédentes, ce qui diminue la diversité des données augmentées et limite ainsi le gain de performance.Pour surmonter les limitations ci-dessus, nous proposons un cadre appelé Text AutoAugment (TAA) pour établir un paradigme compositionnel et apprenable pour l'augmentation des données.Nous considérons une combinaison de diverses opérations comme une politique d'augmentation et utilisons un algorithme efficace d'optimisation bayésienne pour rechercher automatiquement la meilleure politique, ce qui améliore considérablement la capacité de généralisation des modèles.Les expériences sur six ensembles de données de référence montrent que TAA augmente la précision de classification dans les régimes de ressources faibles et de classes déséquilibrées en moyenne de 8,8% et 9,7%, respectivement, surpassant les bases solides.

Translated Description (Spanish)

El aumento de datos tiene como objetivo enriquecer las muestras de entrenamiento para aliviar el problema de sobreajuste en situaciones de bajos recursos o desequilibrio de clase. Los métodos tradicionales primero diseñan operaciones específicas de la tarea, como Synonym Substitute, y luego preestablecen los parámetros correspondientes, como la tasa de sustitución artificialmente, que requieren mucho conocimiento previo y son propensos a caer en el subóptimo. Además, el número de operaciones de edición es limitado en los métodos anteriores, lo que disminuye la diversidad de los datos aumentados y, por lo tanto, restringe la ganancia de rendimiento. Para superar las limitaciones anteriores, proponemos un marco llamado Text AutoAugment (TAA) para establecer un paradigma de composición y aprendizaje para el aumento de datos. Consideramos una combinación de varias operaciones como una política de aumento y utilizamos un algoritmo de optimización bayesiana eficiente para buscar automáticamente la mejor política, lo que mejora sustancialmente la capacidad de generalización de los modelos. Los experimentos en seis conjuntos de datos de referencia muestran que TAA aumenta la precisión de la clasificación en regímenes de bajos recursos y de clase desequilibrados en un promedio de 8.8% y 9.7%, respectivamente, superando las líneas de base sólidas.

Files

2021.emnlp-main.711.pdf.pdf

Files (744.2 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:b157c376164b51c71f8671e19987c63d
744.2 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تكبير تلقائي للنص: تعلم سياسة التكبير التركيبية لتصنيف النص
Translated title (French)
Text AutoAugment : Apprentissage de la politique d'augmentation de la composition pour la classification du texte
Translated title (Spanish)
Aumento automático de texto: política de aumento de composición de aprendizaje para la clasificación de texto

Identifiers

Other
https://openalex.org/W3196579898
DOI
10.18653/v1/2021.emnlp-main.711

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W2097117768
  • https://openalex.org/W2102539288
  • https://openalex.org/W2114986399
  • https://openalex.org/W2887516053
  • https://openalex.org/W2889326796
  • https://openalex.org/W2933138175
  • https://openalex.org/W2945232141
  • https://openalex.org/W2945790622
  • https://openalex.org/W2949736877
  • https://openalex.org/W2963206148
  • https://openalex.org/W2963216553
  • https://openalex.org/W2963341956
  • https://openalex.org/W2963545917
  • https://openalex.org/W2964213257
  • https://openalex.org/W2970295111
  • https://openalex.org/W2970641574
  • https://openalex.org/W2971296908
  • https://openalex.org/W3034999214
  • https://openalex.org/W3035125262
  • https://openalex.org/W3035282664
  • https://openalex.org/W3035331128
  • https://openalex.org/W3047916742
  • https://openalex.org/W3106171756
  • https://openalex.org/W3174036215
  • https://openalex.org/W4234674466