Decouple knowledge from paramters for plug-and-play language modeling
- 1. Peking University
 - 2. Renmin University of China
 - 3. Bioscience Research
 
Description
Pre-trained language models (PLM) have made impressive results in various NLP tasks.It has been revealed that one of the key factors to their success is the parameters of these models implicitly learn all kinds of knowledge during pre-training.However, encoding knowledge implicitly in the model parameters has two fundamental drawbacks.First, the knowledge is neither editable nor scalable once the model is trained, which is especially problematic in that knowledge is consistently evolving.Second, it lacks interpretability and prevents humans from understanding which knowledge PLM requires for a certain problem.In this paper, we introduce PlugLM, a pre-training model with differentiable plug-in memory (DPM).The key intuition is to decouple the knowledge storage from model parameters with an editable and scalable key-value memory and leverage knowledge in an explainable manner by knowledge retrieval in the DPM.To justify this design choice, we conduct evaluations in three settings including: (1) domain adaptation.PlugLM obtains 3.95 F1 improvements across four domains on average without any in-domain pre-training.(2) knowledge update.PlugLM could absorb new knowledge in a training-free way after pretraining is done.(3) in-task knowledge learning.PlugLM could be further improved by incorporating training samples into DPM with knowledge prompting 1 .
Translated Descriptions
Translated Description (Arabic)
حققت نماذج اللغة المدربة مسبقًا نتائج مثيرة للإعجاب في مختلف مهام البرمجة اللغوية العصبية. وقد تبين أن أحد العوامل الرئيسية لنجاحها هو معلمات هذه النماذج التي تتعلم ضمنيًا جميع أنواع المعرفة أثناء التدريب المسبق. ومع ذلك، فإن ترميز المعرفة ضمنيًا في معلمات النموذج له عيبان أساسيان. أولاً، المعرفة غير قابلة للتحرير ولا قابلة للتطوير بمجرد تدريب النموذج، وهو أمر إشكالي بشكل خاص من حيث أن المعرفة تتطور باستمرار. ثانيًا، يفتقر إلى قابلية التفسير ويمنع البشر من فهم المعرفة التي يتطلبها PLM لمشكلة معينة. في هذا ورقة، نقدم PlugLM، نموذج ما قبل التدريب مع ذاكرة إضافية قابلة للاختلاف (DPM). الحدس الرئيسي هو فصل تخزين المعرفة عن معلمات النموذج بذاكرة قيمة رئيسية قابلة للتحرير وقابلة للتطوير والاستفادة من المعرفة بطريقة قابلة للتفسير من خلال استرجاع المعرفة في DPM. لتبرير خيار التصميم هذا، نجري تقييمات في ثلاثة إعدادات بما في ذلك: (1) تكييف المجال. يحصل PlugLM على 3.95 تحسينات F1 عبر أربعة مجالات في المتوسط دون أي تدريب مسبق في المجال.(2) تحديث المعرفة. يمكن لـ PlugLM استيعاب المعرفة الجديدة بطريقة خالية من التدريب بعد يتم التدريب المسبق.(3) تعلم المعرفة في المهمة. يمكن تحسين PlugLM بشكل أكبر من خلال دمج عينات التدريب في DPM مع المطالبة بالمعرفة 1 .Translated Description (French)
Les modèles de langage pré-entraînés (PLM) ont donné des résultats impressionnants dans diverses tâches de PNL.Il a été révélé que l'un des facteurs clés de leur succès est que les paramètres de ces modèles apprennent implicitement toutes sortes de connaissances au cours de la pré-formation.Toutefois, l'encodage des connaissances implicitement dans les paramètres du modèle présente deux inconvénients fondamentaux.Premièrement, les connaissances ne sont ni éditables ni évolutives une fois le modèle formé, ce qui est particulièrement problématique dans la mesure où les connaissances évoluent constamment.Deuxièmement, elles manquent d'interprétabilité et empêchent les humains de comprendre quelles connaissances le PLM nécessite pour un certain problème.Dans ce cas papier, nous présentons PlugLM, un modèle de pré-formation avec mémoire plug-in différentiable (DPM). L'intuition clé est de découpler le stockage des connaissances des paramètres du modèle avec une mémoire de valeur clé éditable et évolutive et de tirer parti des connaissances de manière explicable par la récupération des connaissances dans le DPM.Pour justifier ce choix de conception, nous menons des évaluations dans trois contextes, notamment : (1) adaptation du domaine.PlugLM obtient 3,95 améliorations F1 dans quatre domaines en moyenne sans aucune pré-formation dans le domaine.(2) mise à jour des connaissances.PlugLM pourrait absorber de nouvelles connaissances sans formation après la préformation est terminée.(3) l'apprentissage des connaissances en cours de tâche. PlugLM pourrait être encore amélioré en incorporant des échantillons de formation dans DPM avec l'incitation aux connaissances 1 .Translated Description (Spanish)
Los modelos de lenguaje preentrenados (PLM) han logrado resultados impresionantes en varias tareas de PNL. Se ha revelado que uno de los factores clave de su éxito son los parámetros de estos modelos que aprenden implícitamente todo tipo de conocimientos durante el preentrenamiento. Sin embargo, codificar el conocimiento implícitamente en los parámetros del modelo tiene dos inconvenientes fundamentales. En primer lugar, el conocimiento no es editable ni escalable una vez que el modelo está entrenado, lo que es especialmente problemático porque ese conocimiento está evolucionando constantemente. En segundo lugar, carece de interpretabilidad e impide que los humanos comprendan qué conocimiento requiere PLM para un determinado problema. En este papel, presentamos PlugLM, un modelo de preentrenamiento con memoria plug-in diferenciable (DPM). La intuición clave es desacoplar el almacenamiento de conocimiento de los parámetros del modelo con una memoria de valores clave editable y escalable y aprovechar el conocimiento de una manera explicable mediante la recuperación de conocimiento en el DPM. Para justificar esta elección de diseño, realizamos evaluaciones en tres entornos que incluyen: (1) adaptación de dominio. PlugLM obtiene 3.95 mejoras de F1 en cuatro dominios en promedio sin ninguna capacitación previa en el dominio.(2) actualización de conocimiento. PlugLM podría absorber nuevos conocimientos de una manera libre de capacitación después de que se realice la capacitación. se realiza la capacitación previa.(3) aprendizaje de conocimientos en la tarea. PlugLM podría mejorarse aún más mediante la incorporación de muestras de capacitación en DPM con indicaciones de conocimiento 1 .Files
      
        2023.findings-acl.901.pdf.pdf
        
      
    
    
      
        Files
         (668.0 kB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| 
          
          md5:841070f19c36c7fc6194c896efff3122
           | 
        
        668.0 kB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
 - فصل المعرفة عن المعلمات لنمذجة لغة التوصيل والتشغيل
 - Translated title (French)
 - Découpler les connaissances des paramètres pour la modélisation du langage plug-and-play
 - Translated title (Spanish)
 - Desacoplar el conocimiento de los parámetros para el modelado de lenguaje plug-and-play
 
Identifiers
- Other
 - https://openalex.org/W4385571512
 - DOI
 - 10.18653/v1/2023.findings-acl.901
 
            
              References
            
          
        - https://openalex.org/W2027731328
 - https://openalex.org/W2808556605
 - https://openalex.org/W2948947170
 - https://openalex.org/W2953356739
 - https://openalex.org/W2962739339
 - https://openalex.org/W2963323070
 - https://openalex.org/W2963341956
 - https://openalex.org/W2963448850
 - https://openalex.org/W2963491014
 - https://openalex.org/W2963718112
 - https://openalex.org/W2963748441
 - https://openalex.org/W2963997607
 - https://openalex.org/W2970476646
 - https://openalex.org/W2970771982
 - https://openalex.org/W2970986510
 - https://openalex.org/W2971044268
 - https://openalex.org/W3015453090
 - https://openalex.org/W3034238904
 - https://openalex.org/W3034999214
 - https://openalex.org/W3044438666
 - https://openalex.org/W3097517997
 - https://openalex.org/W3102844651
 - https://openalex.org/W3104330316
 - https://openalex.org/W3118485687
 - https://openalex.org/W3151929433
 - https://openalex.org/W3152884768
 - https://openalex.org/W3153427360
 - https://openalex.org/W3171434230
 - https://openalex.org/W3174531908
 - https://openalex.org/W3176913643
 - https://openalex.org/W4205460703
 - https://openalex.org/W4221166192
 - https://openalex.org/W4223626817
 - https://openalex.org/W4224308101
 - https://openalex.org/W4226278401
 - https://openalex.org/W4281777585
 - https://openalex.org/W4289550782
 - https://openalex.org/W4296878971
 - https://openalex.org/W4297971002
 - https://openalex.org/W4301243929
 - https://openalex.org/W4306178240
 - https://openalex.org/W4306317304
 - https://openalex.org/W4310885633
 - https://openalex.org/W4367046781