Different Tunes Played with Equal Skill: Exploring a Unified Optimization Subspace for Parameter-Efficient Tuning
Creators
- 1. Tsinghua University
- 2. Renmin University of China
- 3. Beijing Institute of Big Data Research
- 4. Peng Cheng Laboratory
- 5. Tencent (China)
Description
Delta tuning (DET, also known as parameterefficient tuning) is deemed as the new paradigm for using pre-trained language models (PLMs).Up to now, various DETs with distinct design elements have been proposed, achieving performance on par with fine-tuning.However, the mechanisms behind the above success are still under-explored, especially the connections among various DETs.To fathom the mystery, we hypothesize that the adaptations of different DETs could all be reparameterized as low-dimensional optimizations in a unified optimization subspace, which could be found by jointly decomposing independent solutions of different DETs.Then we explore the connections among different DETs by conducting optimization within the subspace.In experiments, we find that, for a certain DET, conducting optimization simply in the subspace could achieve comparable performance to its original space, and the found solution in the subspace could be transferred to another DET and achieve nontrivial performance.We also visualize the performance landscape of the subspace, and find that, there exists a substantial region where different DETs all perform well.Finally, we extend our analysis and show the strong connections between fine-tuning and DETs.The codes are publicly available at https://github.com/thunlp/Unified-DeltaTuning.
Translated Descriptions
Translated Description (Arabic)
يعتبر ضبط دلتا (DET، المعروف أيضًا باسم الضبط البارامتري) نموذجًا جديدًا لاستخدام نماذج اللغة المدربة مسبقًا (PLMs). حتى الآن، تم اقتراح العديد من DETs ذات عناصر التصميم المتميزة، مما يحقق الأداء على قدم المساواة مع الضبط الدقيق. ومع ذلك، لا تزال الآليات الكامنة وراء النجاح المذكور أعلاه غير مستكشفة، خاصة الروابط بين مختلف DETs. لفهم اللغز، نفترض أنه يمكن إعادة تحديد معالم تكيفات DETs المختلفة كتحسينات منخفضة الأبعاد في فضاء فرعي موحد للتحسين، والتي يمكن العثور عليها من خلال التحليل المشترك للحلول المستقلة لمختلف DETs. ثم نستكشف الروابط بين DETs المختلفة من خلال إجراء التحسين داخل الفضاء الفرعي. في التجارب، نجد أنه بالنسبة لبعض DET، فإن إجراء التحسين ببساطة في الفضاء الفرعي يمكن أن يحقق أداءً مشابهًا لمساحته الأصلية، ويمكن نقل الحل الموجود في الفضاء الفرعي إلى DET آخر وتحقيق أداء غير تافه. نحن أيضًا نتصور مشهد الأداء للفضاء الفرعي، ونجد أن هناك منطقة كبيرة حيث تؤدي جميع DETs المختلفة أداءً جيدًا. أخيرًا، نوسع تحليلنا ونظهر الروابط القوية بين الضبط الدقيق و DETs.The الرموز متاحة للجمهور على https://github.com/thunlp/Unified-DeltaTuning.Translated Description (French)
Le réglage delta (DET, également connu sous le nom de réglage paramétrable) est considéré comme le nouveau paradigme pour l'utilisation de modèles de langage pré-entraînés (PLM). Jusqu'à présent, divers DET avec des éléments de conception distincts ont été proposés, atteignant des performances égales à celles du réglage fin. Cependant, les mécanismes à l'origine du succès ci-dessus sont encore sous-explorés, en particulier les connexions entre divers DET. Pour comprendre le mystère, nous émettons l'hypothèse que les adaptations de différents DET pourraient toutes être réparamétrées sous forme d'optimisations à faible dimension dans un sous-espace d'optimisation unifié, qui pourrait être trouvé en décomposant conjointement des solutions indépendantes de différents DET. Ensuite, nous explorons les connexions entre différents DET en effectuant une optimisation dans le sous-espace. Dans les expériences, nous constatons que, pour un certain DET, effectuer une optimisation simplement dans le sous-espace pourrait atteindre des performances comparables à son espace d'origine, et la solution trouvée dans le sous-espace pourrait être transférée dans un autre DET et atteindre des performances non triviales. Nous visualisons également le paysage des performances du sous-espace et constatons qu'il existe une région substantielle où différents DET fonctionnent tous bien. Enfin, nous étendons notre analyse et montrons les connexions fortes entre le réglage fin et les DET. Les codes sont accessibles au public sur https://github.com/thunlp/Unified-DeltaTuning.Translated Description (Spanish)
El ajuste delta (Det, también conocido como ajuste de eficiencia de parámetros) se considera el nuevo paradigma para el uso de modelos de lenguaje preentrenados (PLM). Hasta ahora, se han propuesto varios Det con distintos elementos de diseño, logrando un rendimiento a la par con el ajuste fino. Sin embargo, los mecanismos detrás del éxito anterior aún están poco explorados, especialmente las conexiones entre varios DET. Para comprender el misterio, planteamos la hipótesis de que las adaptaciones de diferentes Det podrían reparametrizarse como optimizaciones de baja dimensión en un subespacio de optimización unificado. que se podrían encontrar descomponiendo conjuntamente soluciones independientes de diferentes Det. Luego exploramos las conexiones entre diferentes Det realizando la optimización dentro del subespacio. En experimentos, encontramos que, para un cierto DET, realizar la optimización simplemente en el subespacio podría lograr un rendimiento comparable a su espacio original, y la solución encontrada en el subespacio podría transferirse a otro DET y lograr un rendimiento no trivial. También visualizamos el panorama de rendimiento del subespacio y encontramos que existe una región sustancial donde los diferentes Det funcionan bien. Finalmente, ampliamos nuestro análisis y mostramos las conexiones fuertes entre ajuste fino y DET. Los códigos están disponibles públicamente en https://github.com/thunlp/Unified-DeltaTuning.Files
2022.findings-emnlp.244.pdf.pdf
Files
(1.5 MB)
Name | Size | Download all |
---|---|---|
md5:69348fa446b8eeb00bee80d82edbd3d9
|
1.5 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- الإيقاعات المختلفة التي يتم تشغيلها بمهارة متساوية: استكشاف فضاء فرعي موحد للتحسين من أجل الضبط الفعال للمعلمات
- Translated title (French)
- Différentes mélodies jouées avec des compétences égales : exploration d'un sous-espace d'optimisation unifié pour un réglage efficace des paramètres
- Translated title (Spanish)
- Diferentes melodías reproducidas con la misma habilidad: exploración de un subespacio de optimización unificado para una afinación eficiente de los parámetros
Identifiers
- Other
- https://openalex.org/W4385573288
- DOI
- 10.18653/v1/2022.findings-emnlp.244
References
- https://openalex.org/W2036166268
- https://openalex.org/W2163455955
- https://openalex.org/W2251199578
- https://openalex.org/W2606964149
- https://openalex.org/W2888482885
- https://openalex.org/W2889242953
- https://openalex.org/W2889787757
- https://openalex.org/W2890431379
- https://openalex.org/W2891575196
- https://openalex.org/W2932893307
- https://openalex.org/W2946609015
- https://openalex.org/W2946659172
- https://openalex.org/W2950681488
- https://openalex.org/W2956105246
- https://openalex.org/W2962833140
- https://openalex.org/W2963123047
- https://openalex.org/W2963204221
- https://openalex.org/W2963368301
- https://openalex.org/W2963416784
- https://openalex.org/W2963748441
- https://openalex.org/W2963846996
- https://openalex.org/W2963928014
- https://openalex.org/W2963995027
- https://openalex.org/W2970476646
- https://openalex.org/W2970745243
- https://openalex.org/W2970780738
- https://openalex.org/W2971068072
- https://openalex.org/W2996728628
- https://openalex.org/W2996908057
- https://openalex.org/W2998099211
- https://openalex.org/W3035008906
- https://openalex.org/W3080649016
- https://openalex.org/W3088396740
- https://openalex.org/W3099215402
- https://openalex.org/W3101056292
- https://openalex.org/W3101757358
- https://openalex.org/W3102999298
- https://openalex.org/W3106295233
- https://openalex.org/W3116178420
- https://openalex.org/W3153675281
- https://openalex.org/W3174770825
- https://openalex.org/W3177323791