Dynamic Knowledge Distillation for Pre-trained Language Models
- 1. Tencent (China)
- 2. Peking University
Description
Knowledge distillation (KD) has been proved effective for compressing large-scale pretrained language models.However, existing methods conduct KD statically, e.g., the student model aligns its output distribution to that of a selected teacher model on the pre-defined training dataset.In this paper, we explore whether a dynamic knowledge distillation that empowers the student to adjust the learning procedure according to its competency, regarding the student performance and learning efficiency.We explore the dynamical adjustments on three aspects: teacher model adoption, data selection, and KD objective adaptation.Experimental results show that (1) proper selection of teacher model can boost the performance of student model; (2) conducting KD with 10% informative instances achieves comparable performance while greatly accelerates the training; (3) the student performance can be boosted by adjusting the supervision contribution of different alignment objective.We find dynamic knowledge distillation is promising and provide discussions on potential future directions towards more efficient KD methods. 1
Translated Descriptions
Translated Description (Arabic)
أثبت تقطير المعرفة (KD) فعاليته في ضغط نماذج اللغة المدربة مسبقًا على نطاق واسع. ومع ذلك، فإن الأساليب الحالية تجري KD بشكل ثابت، على سبيل المثال، يقوم نموذج الطالب بمواءمة توزيع مخرجاته مع نموذج المعلم المختار على مجموعة بيانات التدريب المحددة مسبقًا. في هذه الورقة، نستكشف ما إذا كان تقطير المعرفة الديناميكي الذي يمكّن الطالب من ضبط إجراء التعلم وفقًا لكفاءته، فيما يتعلق بأداء الطالب وكفاءة التعلم. نستكشف التعديلات الديناميكية على ثلاثة جوانب: اعتماد نموذج المعلم، واختيار البيانات، والتكيف الموضوعي لـ KD. تظهر النتائج التجريبية أن (1) الاختيار السليم لنموذج المعلم يمكن أن يعزز أداء نموذج الطالب ؛ (2) إجراء تقطير المعرفة الديناميكي بنسبة 10 ٪ من الحالات الإعلامية يحقق أداءً قابلاً للمقارنة مع تسريع التدريب بشكل كبير ؛ (3) يمكن تعزيز أداء الطالب من خلال تعديل مساهمة الإشراف على هدف المحاذاة المختلفة. نجد أن تقطير المعرفة الديناميكي واعد ويقدم مناقشات حول الاتجاهات المستقبلية المحتملة نحو أساليب KD أكثر كفاءة. 1.Translated Description (French)
La distillation des connaissances (KD) s'est avérée efficace pour comprimer des modèles linguistiques pré-entraînés à grande échelle. Cependant, les méthodes existantes conduisent la KD de manière statique, par exemple, le modèle de l'étudiant aligne sa distribution de sortie sur celle d'un modèle d'enseignant sélectionné sur l'ensemble de données de formation prédéfinies. Dans cet article, nous explorons si une distillation dynamique des connaissances qui permet à l'étudiant d'ajuster la procédure d'apprentissage en fonction de ses compétences, en ce qui concerne la performance de l'étudiant et l'efficacité de l'apprentissage. Nous explorons les ajustements dynamiques sur trois aspects : l'adoption du modèle de l'enseignant, la sélection des données et l'adaptation des objectifs de la KD. Les résultats expérimentaux montrent que (1) une sélection appropriée du modèle de l'enseignant peut stimuler la performance du modèle de l'étudiant ; (2) la conduite de la KD avec 10% d'instances informatives permet d'obtenir des performances comparables tout en accélérant considérablement la formation ; (3) la performance de l'étudiant peut être stimulée en ajustant la contribution de la supervision de différents objectifs d'alignement. Nous trouvons que la distillation dynamique des connaissances est prometteuse et fournit des discussions sur les orientations futures potentielles vers des méthodes de KD plus efficaces. 1Translated Description (Spanish)
La destilación de conocimiento (KD) ha demostrado ser efectiva para comprimir modelos de lenguaje preentrenados a gran escala. Sin embargo, los métodos existentes realizan KD de manera estática, por ejemplo, el modelo del estudiante alinea su distribución de salida con la de un modelo de maestro seleccionado en el conjunto de datos de capacitación predefinido. En este documento, exploramos si una destilación de conocimiento dinámica que permite al estudiante ajustar el procedimiento de aprendizaje de acuerdo con su competencia, con respecto al rendimiento y la eficiencia del aprendizaje del estudiante. Exploramos los ajustes dinámicos en tres aspectos: adopción del modelo del maestro, selección de datos y adaptación del objetivo de KD. Los resultados experimentales muestran que (1) la selección adecuada del modelo del maestro puede mejorar el rendimiento del modelo del estudiante; (2) la realización de KD con un 10% de instancias informativas logra un rendimiento comparable mientras acelera en gran medida la capacitación; (3) el rendimiento del estudiante puede mejorarse ajustando la contribución de la supervisión de diferentes objetivos de alineación. Encontramos que la destilación de conocimiento dinámica es prometedora y proporciona discusiones sobre posibles direcciones futuras hacia métodos de KD más eficientes. 1Files
2021.emnlp-main.31.pdf.pdf
Files
(863.6 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:f18f6ebfbc172095fb852589a01f7e38
|
863.6 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تقطير المعرفة الديناميكية لنماذج اللغة المدربة مسبقًا
- Translated title (French)
- Distillation dynamique des connaissances pour les modèles linguistiques préformés
- Translated title (Spanish)
- Destilación dinámica de conocimientos para modelos de lenguaje preentrenados
Identifiers
- Other
- https://openalex.org/W3200808010
- DOI
- 10.18653/v1/2021.emnlp-main.31
References
- https://openalex.org/W131533222
- https://openalex.org/W1484084878
- https://openalex.org/W1528361845
- https://openalex.org/W1580375566
- https://openalex.org/W1821462560
- https://openalex.org/W2113459411
- https://openalex.org/W2130158090
- https://openalex.org/W2187089797
- https://openalex.org/W2251939518
- https://openalex.org/W2396767181
- https://openalex.org/W2903158431
- https://openalex.org/W2903996579
- https://openalex.org/W2908510526
- https://openalex.org/W2963341956
- https://openalex.org/W2963403868
- https://openalex.org/W2963809228
- https://openalex.org/W2963846996
- https://openalex.org/W2964059111
- https://openalex.org/W2964118293
- https://openalex.org/W2964212410
- https://openalex.org/W2965373594
- https://openalex.org/W2969601108
- https://openalex.org/W2970454332
- https://openalex.org/W2975429091
- https://openalex.org/W2978017171
- https://openalex.org/W2978670439
- https://openalex.org/W2994896922
- https://openalex.org/W2997006708
- https://openalex.org/W3008374555
- https://openalex.org/W3034201598
- https://openalex.org/W3098824823
- https://openalex.org/W3101248447
- https://openalex.org/W3103884771
- https://openalex.org/W3105966348
- https://openalex.org/W3115348206
- https://openalex.org/W3129779966
- https://openalex.org/W3171870632
- https://openalex.org/W3174510164
- https://openalex.org/W3196295870