Published February 28, 2024 | Version v1
Publication Open

Meta-Learning for Real-World Class Incremental Learning: A Transformer-Based Approach

  • 1. Maharaja Engineering College
  • 2. Institute of Management Technology
  • 3. Prince Sultan University

Description

Abstract Modern Natural Language Processing (NLP) state-of-the-art (SoTA) Deep Learning (DL) models have hundreds of millions of parameters, making them extremely complex. Large datasets are required for training these models, and while pretraining has reduced this requirement, human-labelled datasets are still necessary for fine-tuning. Few-Shot Learning (FSL) techniques, such as meta-learning, try to train models from smaller datasets to mitigate this cost. However, the tasks used to evaluate these meta-learners frequently diverge from the problems in the real world that they are meant to resolve. This work aims to apply meta-learning to a problem that is more pertinent to the real world: class incremental learning (IL). In this scenario, after completing its training, the model learns to classify newly introduced classes. One unique quality of meta-learners is that they can generalise from a small sample size to classes that have never been seen before, which makes them especially useful for class incremental learning (IL). The method describes how to emulate class IL using proxy new classes. This method allows a meta-learner to complete the task without the need for retraining. To generate predictions, the transformer-based aggregation function in a meta-learner that modifies data from examples across all classes has been proposed. The principal contributions of the model include concurrently considering the entire support and query sets, and prioritising attention to crucial samples, such as the question, to increase the significance of its impact during inference. The outcomes demonstrate that the model surpasses prevailing benchmarks in the industry. Notably, most meta-learners demonstrate significant generalisation in the context of class IL even without specific training for this task. This paper establishes a high-performing baseline for subsequent transformer-based aggregation techniques, thereby emphasising the practical significance of meta-learners in class IL.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تحتوي نماذج التعلم العميق (DL) الخاصة بمعالجة اللغة الطبيعية الحديثة (NLP) على مئات الملايين من المعلمات، مما يجعلها معقدة للغاية. هناك حاجة إلى مجموعات بيانات كبيرة لتدريب هذه النماذج، وعلى الرغم من أن التدريب المسبق قد قلل من هذا المطلب، إلا أن مجموعات البيانات التي تحمل علامات بشرية لا تزال ضرورية للضبط الدقيق. تحاول تقنيات التعلم القليل (FSL)، مثل التعلم التلوي، تدريب النماذج من مجموعات بيانات أصغر للتخفيف من هذه التكلفة. ومع ذلك، فإن المهام المستخدمة لتقييم هؤلاء المتعلمين في كثير من الأحيان تختلف عن المشاكل في العالم الحقيقي التي تهدف إلى حلها. يهدف هذا العمل إلى تطبيق التعلم التلوي على مشكلة أكثر صلة بالعالم الحقيقي: التعلم التدريجي الطبقي (IL). في هذا السيناريو، بعد الانتهاء من تدريبه، يتعلم النموذج تصنيف الفصول التي تم تقديمها حديثًا. تتمثل إحدى السمات الفريدة للمتعلمين الفوقيين في أنه يمكنهم التعميم من حجم عينة صغير إلى فصول لم يسبق لها مثيل من قبل، مما يجعلها مفيدة بشكل خاص للتعلم التدريجي للفصل (IL). تصف الطريقة كيفية محاكاة الفئة IL باستخدام فئات جديدة بالوكالة. تسمح هذه الطريقة للمتعلم الفوقي بإكمال المهمة دون الحاجة إلى إعادة التدريب. لتوليد التنبؤات، تم اقتراح وظيفة التجميع القائم على المحولات في المتعلم التلوي الذي يعدل البيانات من الأمثلة عبر جميع الفئات. تشمل المساهمات الرئيسية للنموذج النظر في الوقت نفسه في مجموعات الدعم والاستعلام بأكملها، وإعطاء الأولوية للاهتمام بالعينات الحاسمة، مثل السؤال، لزيادة أهمية تأثيره أثناء الاستدلال. تُظهر النتائج أن النموذج يتجاوز المعايير السائدة في الصناعة. والجدير بالذكر أن معظم المتعلمين الفوقيين يظهرون تعميمًا كبيرًا في سياق صف اللغة الإنجليزية حتى بدون تدريب محدد لهذه المهمة. تحدد هذه الورقة خط أساس عالي الأداء لتقنيات التجميع اللاحقة القائمة على المحولات، وبالتالي التأكيد على الأهمية العملية للمتعلمين التلويين في الفصل IL.

Translated Description (French)

Les modèles d'apprentissage profond (DL) modernes abstraits de traitement du langage naturel (NLP) à la pointe de la technologie (SoTA) ont des centaines de millions de paramètres, ce qui les rend extrêmement complexes. De grands ensembles de données sont nécessaires pour la formation de ces modèles, et bien que le pré-formation ait réduit cette exigence, des ensembles de données étiquetés par l'homme sont toujours nécessaires pour le réglage fin. Peu de techniques d'apprentissage par le tir (FSL), telles que le méta-apprentissage, tentent de former des modèles à partir d'ensembles de données plus petits pour atténuer ce coût. Cependant, les tâches utilisées pour évaluer ces méta-apprenants divergent souvent des problèmes du monde réel qu'ils sont censés résoudre. Ce travail vise à appliquer le méta-apprentissage à un problème plus pertinent pour le monde réel : l'apprentissage incrémental de classe (IL). Dans ce scénario, après avoir terminé sa formation, le modèle apprend à classer les classes nouvellement introduites. Une qualité unique des méta-apprenants est qu'ils peuvent généraliser d'une petite taille d'échantillon à des classes qui n'ont jamais été vues auparavant, ce qui les rend particulièrement utiles pour l'apprentissage incrémentiel en classe (IL). La méthode décrit comment émuler la classe IL à l'aide de nouvelles classes proxy. Cette méthode permet à un méta-apprenant de terminer la tâche sans avoir besoin de recyclage. Pour générer des prédictions, la fonction d'agrégation basée sur un transformateur dans un méta-apprenant qui modifie les données à partir d'exemples dans toutes les classes a été proposée. Les principales contributions du modèle comprennent la prise en compte simultanée de l'ensemble des ensembles de support et de requête, et la priorité accordée aux échantillons cruciaux, tels que la question, afin d'accroître l'importance de son impact lors de l'inférence. Les résultats démontrent que le modèle dépasse les repères en vigueur dans l'industrie. Notamment, la plupart des méta-apprenants démontrent une généralisation significative dans le contexte de la classe IL même sans formation spécifique pour cette tâche. Cet article établit une base de référence hautement performante pour les techniques d'agrégation ultérieures basées sur les transformateurs, soulignant ainsi l'importance pratique des méta-apprenants dans la classe IL.

Translated Description (Spanish)

Los modelos abstractos modernos de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) de última generación (SoTA, por sus siglas en inglés) de aprendizaje profundo (DL, por sus siglas en inglés) tienen cientos de millones de parámetros, lo que los hace extremadamente complejos. Se requieren grandes conjuntos de datos para entrenar estos modelos, y si bien la capacitación previa ha reducido este requisito, los conjuntos de datos etiquetados por humanos siguen siendo necesarios para el ajuste fino. Las técnicas de aprendizaje de pocos disparos (FSL), como el metaaprendizaje, intentan entrenar modelos a partir de conjuntos de datos más pequeños para mitigar este costo. Sin embargo, las tareas utilizadas para evaluar a estos metaalumnos con frecuencia difieren de los problemas en el mundo real que están destinados a resolver. Este trabajo tiene como objetivo aplicar el metaaprendizaje a un problema que es más pertinente para el mundo real: el aprendizaje incremental en clase (IL). En este escenario, después de completar su formación, el modelo aprende a clasificar las clases recién introducidas. Una cualidad única de los metaalumnos es que pueden generalizar desde un tamaño de muestra pequeño hasta clases que nunca se han visto antes, lo que los hace especialmente útiles para el aprendizaje incremental (IL) en clase. El método describe cómo emular la clase IL utilizando nuevas clases proxy. Este método permite a un metaalumno completar la tarea sin necesidad de volver a capacitarse. Para generar predicciones, se ha propuesto la función de agregación basada en transformadores en un meta-aprendizaje que modifica los datos de ejemplos en todas las clases. Las principales contribuciones del modelo incluyen considerar simultáneamente todos los conjuntos de soporte y consulta, y priorizar la atención a muestras cruciales, como la pregunta, para aumentar la importancia de su impacto durante la inferencia. Los resultados demuestran que el modelo supera los puntos de referencia prevalecientes en la industria. En particular, la mayoría de los metaalumnos demuestran una generalización significativa en el contexto de la IL de clase, incluso sin una capacitación específica para esta tarea. Este documento establece una línea de base de alto rendimiento para las técnicas de agregación basadas en transformadores posteriores, enfatizando así la importancia práctica de los metaaprendices en la clase IL.

Files

latest.pdf.pdf

Files (686.2 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:666f2fbf6fcabe2a3b0f5f98195b5cd3
686.2 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
التعلم التلوي للتعلم التدريجي على مستوى العالم الحقيقي: نهج قائم على المحولات
Translated title (French)
Méta-apprentissage pour un apprentissage progressif de classe mondiale : une approche basée sur les transformateurs
Translated title (Spanish)
Metaaprendizaje para el aprendizaje incremental de clase en el mundo real: un enfoque basado en transformadores

Identifiers

Other
https://openalex.org/W4392271960
DOI
10.21203/rs.3.rs-3914152/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2901114541
  • https://openalex.org/W3163939464
  • https://openalex.org/W4375846667