GhostBERT: Generate More Features with Cheap Operations for BERT
- 1. King University
 - 2. Peking University
 - 3. Huawei Technologies (Sweden)
 
Description
Transformer-based pre-trained language models like BERT, though powerful in many tasks, are expensive in both memory and computation, due to their large number of parameters.Previous works show that some parameters in these models can be pruned away without severe accuracy drop.However, these redundant features contribute to a comprehensive understanding of the training data and removing them weakens the model's representation ability.In this paper, we propose GhostBERT, which generates more features with very cheap operations from the remaining features.In this way, GhostBERT has similar memory and computational cost as the pruned model, but enjoys much larger representation power.The proposed ghost module can also be applied to unpruned BERT models to enhance their performance with negligible additional parameters and computation.Empirical results on the GLUE benchmark on three backbone models (i.e., BERT, RoBERTa and ELECTRA) verify the efficacy of our proposed method.
Translated Descriptions
Translated Description (Arabic)
نماذج اللغة المدربة مسبقًا القائمة على المحولات مثل بيرت، على الرغم من قوتها في العديد من المهام، فهي مكلفة في كل من الذاكرة والحساب، نظرًا لعددها الكبير من المعلمات. تُظهر الأعمال السابقة أن بعض المعلمات في هذه النماذج يمكن تقليمها دون انخفاض شديد في الدقة. ومع ذلك، تساهم هذه الميزات الزائدة في فهم شامل لبيانات التدريب وإزالتها مما يضعف قدرة تمثيل النموذج. في هذه الورقة، نقترح GhostBERT، الذي يولد المزيد من الميزات مع عمليات رخيصة جدًا من الميزات المتبقية. وبهذه الطريقة، تتمتع GhostBERT بذاكرة وتكلفة حسابية مماثلة للنموذج المشذبذب، ولكنها تتمتع بقوة تمثيل أكبر بكثير. يمكن أيضًا تطبيق وحدة الشبح المقترحة على نماذج بيرت غير المشذبة لتعزيز أدائها بمعلمات إضافية لا تذكر وحساب. تتحقق النتائج التجريبية على معيار الغراء على ثلاثة نماذج العمود الفقري (أي بيرت وروبيرتا وإلكترا) من فعالية طريقتنا المقترحة.Translated Description (French)
Les modèles de langage pré-entraînés basés sur des transformateurs comme BERT, bien que puissants dans de nombreuses tâches, sont coûteux en mémoire et en calcul, en raison de leur grand nombre de paramètres. Les travaux précédents montrent que certains paramètres de ces modèles peuvent être élagués sans chute de précision sévère. Cependant, ces fonctionnalités redondantes contribuent à une compréhension complète des données d'entraînement et leur suppression affaiblit la capacité de représentation du modèle. Dans cet article, nous proposons GhostBERT, qui génère plus de fonctionnalités avec des opérations très bon marché à partir des fonctionnalités restantes. De cette façon, GhostBERT a une mémoire et un coût de calcul similaires à ceux du modèle élagué, mais bénéficie d'une puissance de représentation beaucoup plus grande. Le module fantôme proposé peut également être appliqué à des modèles BERT non élagués pour améliorer leurs performances avec des paramètres et des calculs supplémentaires négligeables. Les résultats empiriques sur la référence GLUE sur trois modèles de base (c'est-à-dire BERT, RoBERTa et ELECTRA) vérifient l'efficacité de notre méthode proposée.Translated Description (Spanish)
Los modelos de lenguaje preentrenados basados en transformadores como BERT, aunque son potentes en muchas tareas, son caros tanto en memoria como en cálculo, debido a su gran número de parámetros. Trabajos anteriores muestran que algunos parámetros en estos modelos se pueden podar sin una caída de precisión severa. Sin embargo, estas características redundantes contribuyen a una comprensión integral de los datos de entrenamiento y eliminarlos debilita la capacidad de representación del modelo. En este documento, proponemos GhostBERT, que genera más características con operaciones muy baratas a partir de las características restantes. De esta manera, GhostBERT tiene un costo de memoria y cálculo similar al modelo podado, pero disfruta de un poder de representación mucho mayor. El módulo fantasma propuesto también se puede aplicar a los modelos BERT no editados para mejorar su rendimiento con parámetros y cálculos adicionales insignificantes. Los resultados espirituales en el punto de referencia de PEGAMENTO en tres modelos principales (es decir, BERT, RoBERTa y ELECTRA) verifican la eficacia de nuestro método propuesto.Files
      
        2021.acl-long.509.pdf.pdf
        
      
    
    
      
        Files
         (3.1 MB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| 
          
          md5:f7f815ca86357373e2e78a22902718d2
           | 
        
        3.1 MB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
 - GhostBERT: إنشاء المزيد من الميزات مع عمليات رخيصة لبيرت
 - Translated title (French)
 - GhostBERT : Générez plus de fonctionnalités avec des opérations bon marché pour BERT
 - Translated title (Spanish)
 - GhostBERT: Genera más funciones con operaciones baratas para BERT
 
Identifiers
- Other
 - https://openalex.org/W3173195958
 - DOI
 - 10.18653/v1/2021.acl-long.509
 
            
              References
            
          
        - https://openalex.org/W2908336025
 - https://openalex.org/W2911300548
 - https://openalex.org/W2946794439
 - https://openalex.org/W2963310665
 - https://openalex.org/W2963341956
 - https://openalex.org/W2964303773
 - https://openalex.org/W2965373594
 - https://openalex.org/W2970120757
 - https://openalex.org/W2970454332
 - https://openalex.org/W2970565456
 - https://openalex.org/W2978017171
 - https://openalex.org/W2994914025
 - https://openalex.org/W2996035354
 - https://openalex.org/W2996159613
 - https://openalex.org/W2996428491
 - https://openalex.org/W2998183051
 - https://openalex.org/W3006683367
 - https://openalex.org/W3015982254
 - https://openalex.org/W3017022649
 - https://openalex.org/W3034457371
 - https://openalex.org/W3034560159
 - https://openalex.org/W3035030897
 - https://openalex.org/W3035038672
 - https://openalex.org/W3035414587
 - https://openalex.org/W3038012435
 - https://openalex.org/W3046835050
 - https://openalex.org/W3098576111
 - https://openalex.org/W3099715410
 - https://openalex.org/W3101163004
 - https://openalex.org/W3101278968
 - https://openalex.org/W3101498587
 - https://openalex.org/W3101731278
 - https://openalex.org/W3105645800
 - https://openalex.org/W3105966348
 - https://openalex.org/W3118485687
 - https://openalex.org/W3173374050