Published January 1, 2022 | Version v1
Publication Open

Exploring Mode Connectivity for Pre-trained Language Models

  • 1. Tsinghua University
  • 2. Renmin University of China
  • 3. Beijing Institute of Big Data Research
  • 4. Peng Cheng Laboratory
  • 5. Tencent (China)

Description

Recent years have witnessed the prevalent application of pre-trained language models (PLMs) in NLP.From the perspective of parameter space, PLMs provide generic initialization, starting from which high-performance minima could be found.Although plenty of works have studied how to effectively and efficiently adapt PLMs to high-performance minima, little is known about the connection of various minima reached under different adaptation configurations.In this paper, we investigate the geometric connections of different minima through the lens of mode connectivity, which measures whether two minima can be connected with a low-loss path.We conduct empirical analyses to investigate three questions: (1) how could hyperparameters, specific tuning methods, and training data affect PLM's mode connectivity?(2) How does mode connectivity change during pretraining?(3) How does the PLM's task knowledge change along the path connecting two minima?In general, exploring the mode connectivity of PLMs conduces to understanding the geometric connection of different minima, which may help us fathom the inner workings of PLM downstream adaptation.The codes are publicly available at https://github.com/thunlp/Mode-Connectivity-PLM.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

شهدت السنوات الأخيرة التطبيق السائد لنماذج اللغة المدربة مسبقًا (PLMs) في البرمجة اللغوية العصبية. من منظور مساحة المعلمات، توفر PLMs تهيئة عامة، بدءًا من التي يمكن من خلالها العثور على الحد الأدنى عالي الأداء. على الرغم من أن الكثير من الأعمال قد درست كيفية تكييف PLMs بفعالية وكفاءة مع الحد الأدنى عالي الأداء، إلا أنه لا يُعرف سوى القليل عن اتصال الحد الأدنى المختلف الذي تم الوصول إليه في ظل تكوينات التكيف المختلفة. في هذه الورقة، نقوم بالتحقيق في الاتصالات الهندسية للحد الأدنى المختلف من خلال عدسة اتصال الوضع، والتي تقيس ما إذا كان يمكن ربط الحد الأدنىين بمسار منخفض الخسارة. نقوم بإجراء تحليلات تجريبية للتحقيق في ثلاثة أسئلة: (1) كيف يمكن أن تؤثر المعلمات الفائقة وطرق الضبط المحددة وبيانات التدريب على اتصال وضع PLM ؟(2) كيف يتغير اتصال الوضع أثناء التدريب المسبق ؟(3) كيف تتغير معرفة مهمة PLM على طول المسار الذي يربط بين الحدين الأدنىين ؟بشكل عام، يؤدي استكشاف اتصال الوضع لـ PLMs إلى فهم الاتصال الهندسي للأدنى المختلفة، مما قد يساعدنا على فهم الأعمال الداخلية لـ PLM للتكيف النهائي. الرموز متاحة للجمهور على https://github.com/thunlp/Mode-Connectivity-PLM.

Translated Description (French)

Ces dernières années ont vu l'application répandue de modèles de langage pré-entraînés (PLM) en PNL. Du point de vue de l'espace des paramètres, les PLM fournissent une initialisation générique, à partir de laquelle des minima de haute performance peuvent être trouvés. Bien que de nombreux travaux aient étudié comment adapter efficacement et efficacement les PLM aux minima de haute performance, on sait peu de choses sur la connexion de divers minima atteints dans différentes configurations d'adaptation. Dans cet article, nous étudions les connexions géométriques de différents minima à travers la lentille de la connectivité de mode, qui mesure si deux minima peuvent être connectés avec un chemin à faible perte. Nous menons des analyses empiriques pour étudier trois questions : (1) comment les hyperparamètres, les méthodes de réglage spécifiques et les données de formation pourraient-ils affecter la connectivité de mode du PLM ?(2) Comment la connectivité des modes change-t-elle pendant le pré-formation ?(3) Comment la connaissance des tâches du PLM change-t-elle le long du chemin reliant deux minima ?En général, l'exploration de la connectivité des modes des PLM permet de comprendre la connexion géométrique de différents minima, ce qui peut nous aider à comprendre le fonctionnement interne de l'adaptation en aval du PLM. Les codes sont accessibles au public sur https://github.com/thunlp/Mode-Connectivity-PLM.

Translated Description (Spanish)

Los últimos años han sido testigos de la aplicación frecuente de modelos de lenguaje preentrenados (PLM) en PNL. Desde la perspectiva del espacio de parámetros, los PLM proporcionan una inicialización genérica, a partir de la cual se pueden encontrar mínimos de alto rendimiento. Aunque muchos trabajos han estudiado cómo adaptar de manera efectiva y eficiente los PLM a los mínimos de alto rendimiento, se sabe poco sobre la conexión de varios mínimos alcanzados bajo diferentes configuraciones de adaptación. En este documento, investigamos las conexiones geométricas de diferentes mínimos a través de la lente de la conectividad de modo, que mide si dos mínimos se pueden conectar con una ruta de baja pérdida. Realizamos análisis empíricos para investigar tres preguntas: (1) ¿cómo podrían los hiperparámetros, los métodos de ajuste específicos y los datos de entrenamiento afectar la conectividad de modo de PLM?(2) ¿Cómo cambia la conectividad del modo durante el preentrenamiento?(3) ¿Cómo cambia el conocimiento de la tarea del PLM a lo largo del camino que conecta dos mínimos?En general, explorar la conectividad de modo de los PLM conduce a comprender la conexión geométrica de diferentes mínimos, lo que puede ayudarnos a comprender el funcionamiento interno de la adaptación descendente de PLM. Los códigos están disponibles públicamente en https://github.com/thunlp/Mode-Connectivity-PLM.

Files

2022.emnlp-main.451.pdf.pdf

Files (1.8 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:c742801bd2e80b81316a26b600865d0c
1.8 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
استكشاف اتصال الوضع لنماذج اللغة المدربة مسبقًا
Translated title (French)
Exploration de la connectivité des modes pour les modèles linguistiques pré-entraînés
Translated title (Spanish)
Explorando la conectividad del modo para modelos de lenguaje preentrenados

Identifiers

Other
https://openalex.org/W4385573419
DOI
10.18653/v1/2022.emnlp-main.451

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1566289585
  • https://openalex.org/W2163455955
  • https://openalex.org/W2395579298
  • https://openalex.org/W2963341956
  • https://openalex.org/W2963846996
  • https://openalex.org/W2964303116
  • https://openalex.org/W2970476646
  • https://openalex.org/W2971033911
  • https://openalex.org/W3034255912
  • https://openalex.org/W3034408878
  • https://openalex.org/W3034850762
  • https://openalex.org/W3098068947
  • https://openalex.org/W3103649165
  • https://openalex.org/W3124687886
  • https://openalex.org/W3164896303
  • https://openalex.org/W3172642864
  • https://openalex.org/W3174781392
  • https://openalex.org/W4205712089
  • https://openalex.org/W4225691633
  • https://openalex.org/W4285169833
  • https://openalex.org/W4287891024