Published January 1, 2021 | Version v1
Publication Open

Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models

  • 1. Peking University
  • 2. Alibaba Group (United States)

Description

Chinese pre-trained language models usually process text as a sequence of characters, while ignoring more coarse granularity, e.g., words.In this work, we propose a novel pre-training paradigm for Chinese -Lattice-BERT, which explicitly incorporates word representations along with characters, thus can model a sentence in a multi-granularity manner.Specifically, we construct a lattice graph from the characters and words in a sentence and feed all these text units into transformers.We design a lattice position attention mechanism to exploit the lattice structures in self-attention layers.We further propose a masked segment prediction task to push the model to learn from rich but redundant information inherent in lattices, while avoiding learning unexpected tricks.Experiments on 11 Chinese natural language understanding tasks show that our model can bring an average increase of 1.5% under the 12-layer setting, which achieves new state-of-the-art among base-size models on the CLUE benchmarks.Further analysis shows that Lattice-BERT can harness the lattice structures, and the improvement comes from the exploration of redundant information and multigranularity representations.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

عادةً ما تقوم نماذج اللغة الصينية المدربة مسبقًا بمعالجة النص كسلسلة من الأحرف، مع تجاهل التفاصيل الأكثر دقة، على سبيل المثال، الكلمات. في هذا العمل، نقترح نموذجًا جديدًا للتدريب المسبق للغة الصينية - Lattice - BERT، والذي يتضمن صراحة تمثيلات للكلمات جنبًا إلى جنب مع الأحرف، وبالتالي يمكنه نمذجة جملة بطريقة متعددة التفاصيل. على وجه التحديد، نقوم بإنشاء رسم بياني شبكي من الأحرف والكلمات في الجملة ونغذي كل وحدات النص هذه في محولات. نقوم بتصميم آلية انتباه موضع شبكي لاستغلال هياكل الشبكة في طبقات الانتباه الذاتي. نقترح كذلك مهمة التنبؤ بالجزء المقنع لدفع النموذج للتعلم من المعلومات الغنية ولكنها زائدة عن الحاجة المتأصلة في الشبكات، مع تجنب تعلم الحيل غير المتوقعة. تظهر التجارب على 11 مهمة فهم اللغة الطبيعية الصينية أن نموذجنا يمكن أن يحقق زيادة متوسطة بنسبة 1.5 ٪ تحت إعداد 12 طبقة، مما يحقق حالة جديدة من الفن بين النماذج الأساسية على معايير CLUE. يُظهر التحليل أن Lattice - BER يمكن أن تأتي الهياكل الشبكية والتحسينات من تكرار المعلومات.

Translated Description (French)

Les modèles de langue chinoise pré-entraînés traitent généralement le texte comme une séquence de caractères, tout en ignorant une granularité plus grossière, par exemple, les mots. Dans ce travail, nous proposons un nouveau paradigme de pré-entraînement pour le chinois -Lattice-BERT, qui incorpore explicitement des représentations de mots avec des caractères, peut donc modéliser une phrase d'une manière multi-granularité. Spécifiquement, nous construisons un graphique en treillis à partir des caractères et des mots d'une phrase et alimentons toutes ces unités de texte dans des transformateurs. Nous concevons un mécanisme d'attention de position de treillis pour exploiter les structures de treillis dans les couches d'auto-attention. Nous proposons en outre une tâche de prédiction de segment masquée pour pousser le modèle à apprendre à partir d'informations riches mais redondantes inhérentes aux treillis, tout en évitant d'apprendre des astuces inattendues. Les expériences sur 11 tâches de compréhension du chinois en langage naturel montrent que notre modèle peut apporter une augmentation moyenne de 1,5% sous le réglage à 12 couches, ce qui permet d'atteindre un nouvel état de l'art parmi les modèles de taille de base sur les REPÈRES CLUE. L'analyse approfondie montre que Lattice-BERT peut exploiter les structures de treillis, et l'amélioration provient de l'exploration d'informations redondantes et de représentations multi-granulaires.

Translated Description (Spanish)

Los modelos de lenguaje chino pre-entrenados generalmente procesan el texto como una secuencia de caracteres, mientras ignoran una granularidad más gruesa, por ejemplo, palabras. En este trabajo, proponemos un nuevo paradigma de pre-entrenamiento para el chino - Lattice-BERT, que incorpora explícitamente representaciones de palabras junto con caracteres, por lo tanto, podemos modelar una oración de una manera multigranular. Específicamente, construimos un gráfico de celosía a partir de los caracteres y palabras en una oración y alimentamos todas estas unidades de texto en transformadores. Diseñamos un mecanismo de atención de posición de celosía para explotar las estructuras de celosía en capas de auto-atención. Además, proponemos una tarea de predicción de segmento enmascarado para impulsar el modelo a aprender de información rica pero redundante inherente a las celosías, mientras evitamos aprender trucos inesperados. Los experimentos en 11 tareas de comprensión del lenguaje natural chino muestran que nuestro modelo puede traer un aumento promedio del 1.5% en el entorno de 12 capas, lo que logra un nuevo estado del arte entre los modelos de tamaño base en los puntos de referencia de la PISTA. El análisis de Lattice-BERT muestra que puede aprovechar las estructuras de celos, y la mejora proviene de la exploración de la información redundante y las representaciones de multigranularidad.

Files

2021.naacl-main.137.pdf.pdf

Files (676.7 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:e88e332073c14aeca8c9f623906ed718
676.7 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
Lattice - BERT: الاستفادة من التمثيلات متعددة التفاصيل في نماذج اللغة الصينية المدربة مسبقًا
Translated title (French)
Lattice-BERT : Tirer parti des représentations multi-granularités dans les modèles linguistiques chinois pré-entraînés
Translated title (Spanish)
Lattice-BERT: Aprovechamiento de las representaciones de granularidad múltiple en modelos de lenguaje preentrenados en chino

Identifiers

Other
https://openalex.org/W3170962005
DOI
10.18653/v1/2021.naacl-main.137

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W2904197672
  • https://openalex.org/W2950118387
  • https://openalex.org/W2962835228
  • https://openalex.org/W2962904552
  • https://openalex.org/W2963341956
  • https://openalex.org/W2963809228
  • https://openalex.org/W2963831883
  • https://openalex.org/W2970323499
  • https://openalex.org/W3011411500
  • https://openalex.org/W3034379414
  • https://openalex.org/W3035051781
  • https://openalex.org/W3035490055
  • https://openalex.org/W3098065087
  • https://openalex.org/W3102725307
  • https://openalex.org/W3114651185