Enhancing Self-Attention with Knowledge-Assisted Attention Maps
Creators
- 1. Peking University
- 2. Microsoft Research Asia (China)
Description
Large-scale pre-trained language models have attracted extensive attentions in the research community and shown promising results on various tasks of natural language processing.However, the attention maps, which record the attention scores between tokens in self-attention mechanism, are sometimes ineffective as they are learned implicitly without the guidance of explicit semantic knowledge.Thus, we aim to infuse explicit external knowledge into pretrained language models to further boost their performance.Existing works of knowledge infusion largely depend on multi-task learning frameworks, which are inefficient and require large-scale re-training when new knowledge is considered.In this paper, we propose a novel and generic solution, KAM-BERT, which directly incorporates knowledge-generated attention maps into the self-attention mechanism.It requires only a few extra parameters and supports efficient fine-tuning once new knowledge is added.KAM-BERT achieves consistent improvements on various academic datasets for natural language understanding.It also outperforms other state-of-the-art methods which conduct knowledge infusion into transformerbased architectures.Moreover, we apply our model to an industry-scale ad relevance application and show its advantages in the real-world scenario.
Translated Descriptions
Translated Description (Arabic)
اجتذبت نماذج اللغة المدربة مسبقًا على نطاق واسع اهتمامًا واسعًا في مجتمع البحث وأظهرت نتائج واعدة في مختلف مهام معالجة اللغة الطبيعية. ومع ذلك، فإن خرائط الانتباه، التي تسجل درجات الانتباه بين الرموز المميزة في آلية الانتباه الذاتي، تكون في بعض الأحيان غير فعالة حيث يتم تعلمها ضمنيًا دون توجيه المعرفة الدلالية الصريحة. وبالتالي، فإننا نهدف إلى غرس المعرفة الخارجية الصريحة في نماذج اللغة المدربة مسبقًا لزيادة تعزيز أدائها. تعتمد أعمال ضخ المعرفة الحالية إلى حد كبير على أطر التعلم متعددة المهام، والتي تكون غير فعالة وتتطلب إعادة تدريب على نطاق واسع عند النظر في المعرفة الجديدة. في هذه الورقة، نقترح حلاً جديدًا وعامًا، KAM - BERT، والذي يدمج بشكل مباشر خرائط الانتباه المتولدة عن المعرفة في آلية الانتباه الذاتي. لا يتطلب سوى عدد قليل من المعلمات الإضافية ويدعم الضبط الدقيق الفعال بمجرد إضافة معرفة جديدة. يحقق KAM - BERT تحسينات متسقة على مجموعات البيانات الأكاديمية المختلفة لفهم اللغة الطبيعية. كما يتفوق على أداء الطرق الأخرى للسلوك التي تعمل على تحويل المعرفة إلى معماركات معماركية. أكثر من ذلك، نطبق نموذجنا على نطاق واسع لإظهار مزايا التطبيق والسيناريو الحقيقي.Translated Description (French)
Les modèles linguistiques pré-entraînés à grande échelle ont attiré de nombreuses attentions dans la communauté des chercheurs et ont montré des résultats prometteurs sur diverses tâches de traitement du langage naturel. Cependant, les cartes d'attention, qui enregistrent les scores d'attention entre les jetons dans le mécanisme d'auto-attention, sont parfois inefficaces car elles sont apprises implicitement sans l'aide de connaissances sémantiques explicites. Ainsi, nous visons à infuser des connaissances externes explicites dans des modèles linguistiques pré-entraînés pour améliorer encore leurs performances. Les travaux existants d'infusion de connaissances dépendent en grande partie des cadres d'apprentissage multitâches, qui sont inefficaces et nécessitent un recyclage à grande échelle lorsque de nouvelles connaissances sont envisagées. Dans cet article, nous proposons une solution nouvelle et générique, KAM-BERT, qui intègre directement les cartes d'attention générées par les connaissances dans le mécanisme d'auto-attention. Il ne nécessite que quelques paramètres supplémentaires et prend en charge un réglage fin efficace une fois que de nouvelles connaissances sont ajoutées. KAM-BERT réalise des améliorations constantes sur divers ensembles de données académiques pour la compréhension du langage naturel. Il surpasse également d'autres méthodes de pointe qui conduisent à l'infusion de connaissances dans des architectures basées sur des transformateurs. En outre, nous appliquons notre modèle à une application de pertinence à l'échelle de l'industrie et montrons ses avantages dans le monde réel.Translated Description (Spanish)
Los modelos de lenguaje preentrenados a gran escala han atraído una gran atención en la comunidad de investigación y han mostrado resultados prometedores en diversas tareas de procesamiento del lenguaje natural. Sin embargo, los mapas de atención, que registran las puntuaciones de atención entre los tokens en el mecanismo de autoatención, a veces son ineficaces, ya que se aprenden implícitamente sin la guía del conocimiento semántico explícito. Por lo tanto, nuestro objetivo es infundir conocimiento externo explícito en los modelos de lenguaje preentrenados para aumentar aún más su rendimiento. Los trabajos existentes de infusión de conocimiento dependen en gran medida de marcos de aprendizaje multitarea, que son ineficientes y requieren un reentrenamiento a gran escala cuando se consideran nuevos conocimientos. En este documento, proponemos una solución novedosa y genérica, KAM-BERT, que incorpora directamente mapas de atención generados por el conocimiento en el mecanismo de autoatención. Requiere solo unos pocos parámetros adicionales y admite un ajuste fino eficiente una vez que se agrega nuevo conocimiento. KAM-BERT logra mejoras consistentes en varios conjuntos de datos académicos para la comprensión del lenguaje natural. También supera a otros métodos de vanguardia que realizan la infusión de conocimiento en arquitecturas basadas en transformadores. Además, aplicamos nuestro modelo a una aplicación publicitaria a escala industrial y mostramos sus ventajas en el escenario del mundo real.Files
2022.naacl-main.8.pdf.pdf
Files
(647.4 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:54fa4b16ea141b858d431340e36d9ed1
|
647.4 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تعزيز الانتباه الذاتي من خلال خرائط الانتباه بمساعدة المعرفة
- Translated title (French)
- Améliorer l'auto-attention avec des cartes d'attention assistées par la connaissance
- Translated title (Spanish)
- Mejorar la auto-atención con mapas de atención asistida por el conocimiento
Identifiers
- Other
- https://openalex.org/W4287888046
- DOI
- 10.18653/v1/2022.naacl-main.8