Published January 1, 2021 | Version v1
Publication Open

DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations

  • 1. University of Toronto
  • 2. Vector Institute
  • 3. Applied Science Private University
  • 4. Health Net
  • 5. University Health Network

Description

Sentence embeddings are an important component of many natural language processing (NLP) systems.Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval.Unlike word embeddings, the highest performing solutions for learning sentence embeddings require labelled data, limiting their usefulness to languages and domains where labelled data is abundant.In this paper, we present DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations.Inspired by recent advances in deep metric learning (DML), we carefully design a self-supervised objective for learning universal sentence embeddings that does not require labelled training data.When used to extend the pretraining of transformer-based language models, our approach closes the performance gap between unsupervised and supervised pretraining for universal sentence encoders.Importantly, our experiments suggest that the quality of the learned embeddings scale with both the number of trainable parameters and the amount of unlabelled training data.Our code and pretrained models are publicly available and can be easily adapted to new domains or used to embed unseen text. 1

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تعد تضمينات الجمل مكونًا مهمًا في العديد من أنظمة معالجة اللغة الطبيعية. مثل تضمينات الكلمات، يتم تعلم تضمينات الجمل عادةً على مجموعات نصية كبيرة ثم يتم نقلها إلى مهام مختلفة في المراحل النهائية، مثل التجميع والاسترجاع. على عكس تضمينات الكلمات، تتطلب الحلول الأعلى أداءً لتعلم تضمينات الجمل بيانات موسومة، مما يحد من فائدتها للغات والمجالات التي تكون فيها البيانات المسماة وفيرة. في هذه الورقة، نقدم DeCLUTR: التعلم المتباين العميق للتمثيلات النصية غير الخاضعة للإشراف. مستوحاة من التطورات الحديثة في التعلم المتري العميق (DML)، نقوم بتصميم هدف ذاتي الإشراف بعناية لتعلم تضمينات الجملة العالمية التي لا تتطلب بيانات تدريب موسومة وكمية البيانات غير القابلة للتدريب. عند استخدامها لتوسيع نطاق التدريب المسبق لنماذج اللغة القائمة على المحولات، فإن نهجنا يغلق فجوة الأداء بين التدريب المسبق غير الخاضع للإشراف والإشراف لمشفرات الجملة العالمية. بشكل مهم، تشير تجاربنا إلى أن جودة التضمينات المكتسبة مع كل من عدد المعلمات القابلة للتدريب وكمية البيانات غير القابلة للتدريب. يمكن أن تكون نماذج التدريب غير المبرمجة ونماذج التدريب متاحة للجمهور ويمكن استخدامها بسهولة لتضمين نصوص جديدة.

Translated Description (French)

Les incrustations de phrases sont un composant important de nombreux systèmes de traitement du langage naturel (PNL). Comme les incrustations de mots, les incrustations de phrases sont généralement apprises sur de grands corpus de texte, puis transférées vers diverses tâches en aval, telles que le regroupement et la récupération. Contrairement aux incrustations de mots, les solutions les plus performantes pour l'apprentissage des incrustations de phrases nécessitent des données étiquetées, limitant leur utilité aux langues et aux domaines où les données étiquetées sont abondantes. Dans cet article, nous présentons DeCLUTR : Deep Contrastive Learning for Unsupervised Textual Representations. Inspirés par les progrès récents de l'apprentissage métrique profond (DML), nous concevons soigneusement un objectif autosupervisé pour l'apprentissage des incrustations de phrases universelles qui ne nécessite pas de données de formation étiquetées. Lorsqu'il est utilisé pour étendre le pré-entraînement des modèles de langage basés sur des transformateurs, notre approche comble l'écart de performance entre le pré-entraînement non supervisé et le pré-entraînement supervisé pour les codeurs de phrases universelles. Nos expériences suggèrent que la qualité de l'échelle des incrustations apprises avec à la fois le nombre de paramètres pouvant être formés et la quantité de données de formation non étiquetées. Nos modèles de code et de pré-entraînement sont publiquement disponibles et peuvent facilement être adaptés à de nouveaux domaines ou utilisés pour incruster du texte 1.

Translated Description (Spanish)

Las incrustaciones de oraciones son un componente importante de muchos sistemas de procesamiento de lenguaje natural (PNL). Al igual que las incrustaciones de palabras, las incrustaciones de oraciones generalmente se aprenden en grandes corpus de texto y luego se transfieren a varias tareas posteriores, como la agrupación y la recuperación. A diferencia de las incrustaciones de palabras, las soluciones de mayor rendimiento para el aprendizaje de incrustaciones de oraciones requieren datos etiquetados, lo que limita su utilidad a idiomas y dominios donde los datos etiquetados son abundantes. En este documento, presentamos DeCLUTR: Aprendizaje contrastivo profundo para representaciones textuales no supervisadas. Inspirado por los recientes avances en el aprendizaje métrico profundo (DML), diseñamos cuidadosamente un objetivo auto-supervisado para el aprendizaje de incrustaciones de oraciones universales que no requiere datos de capacitación etiquetados. Cuando se utiliza para extender el entrenamiento previo de modelos de lenguaje basados en transformadores, nuestro enfoque cierra la brecha de rendimiento entre el entrenamiento previo no supervisado y supervisado para codificadores de oraciones universales. De manera importante, nuestros experimentos sugieren que la calidad de las incrustaciones aprendidas se escala tanto con el número de parámetros entrenables como con la cantidad de datos de capacitación no etiquetados. Nuestro código y los modelos preentrenados están disponibles públicamente y se pueden adaptar fácilmente a nuevos dominios o se utilizan para incrustar texto 1.

Files

2021.acl-long.72.pdf.pdf

Files (1.3 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:067b05f6f59e52e068a5b7cc96e18397
1.3 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
DeCLUTR: التعلم المتباين العميق للتمثيلات النصية غير الخاضعة للإشراف
Translated title (French)
DeCLUTR : Deep Contrastive Learning pour les représentations textuelles non supervisées
Translated title (Spanish)
DeCLUTR: Aprendizaje contrastivo profundo para representaciones textuales no supervisadas

Identifiers

Other
https://openalex.org/W3173783447
DOI
10.18653/v1/2021.acl-long.72

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Jordan

References

  • https://openalex.org/W1840435438
  • https://openalex.org/W2114524997
  • https://openalex.org/W2126400076
  • https://openalex.org/W2133458109
  • https://openalex.org/W2163455955
  • https://openalex.org/W2194775991
  • https://openalex.org/W2250539671
  • https://openalex.org/W2405223529
  • https://openalex.org/W2408241409
  • https://openalex.org/W2462305634
  • https://openalex.org/W2798991696
  • https://openalex.org/W2891177506
  • https://openalex.org/W2953958347
  • https://openalex.org/W2962748819
  • https://openalex.org/W2963026768
  • https://openalex.org/W2963341956
  • https://openalex.org/W2963691697
  • https://openalex.org/W2963744743
  • https://openalex.org/W2963804993
  • https://openalex.org/W2963846996
  • https://openalex.org/W2963918774
  • https://openalex.org/W2964110616
  • https://openalex.org/W2964204621
  • https://openalex.org/W2970641574
  • https://openalex.org/W2979826702
  • https://openalex.org/W3011411500
  • https://openalex.org/W3035524453
  • https://openalex.org/W3103919331
  • https://openalex.org/W3104033643