Improving Embedding-based Large-scale Retrieval via Label Enhancement
- 1. China Institute of Finance and Capital Markets
- 2. Peking University
Description
Current embedding-based large-scale retrieval models are trained with 0-1 hard label that indicates whether a query is relevant to a document, ignoring rich information of the relevance degree.This paper proposes to improve embedding-based retrieval from the perspective of better characterizing the querydocument relevance degree by introducing label enhancement (LE) for the first time.To generate label distribution in the retrieval scenario, we design a novel and effective supervised LE method that incorporates prior knowledge from dynamic term weighting methods into contextual embeddings.Our method significantly outperforms four competitive existing retrieval models and its counterparts equipped with two alternative LE techniques by training models with the generated label distribution as auxiliary supervision information.The superiority can be easily observed on English and Chinese large-scale retrieval tasks under both standard and cold-start settings.
Translated Descriptions
Translated Description (Arabic)
يتم تدريب نماذج الاسترجاع واسعة النطاق القائمة على التضمين الحالية على التسمية الصلبة 0-1 التي تشير إلى ما إذا كان الاستعلام ذا صلة بمستند ما، مع تجاهل المعلومات الغنية لدرجة الصلة. تقترح هذه الورقة تحسين الاسترجاع القائم على التضمين من منظور توصيف درجة ملاءمة الاستعلام بشكل أفضل من خلال تقديم تحسين التسمية (LE) لأول مرة. لتوليد توزيع التسمية في سيناريو الاسترجاع، نقوم بتصميم طريقة LE جديدة وفعالة خاضعة للإشراف تتضمن المعرفة المسبقة من طرق الترجيح الديناميكية للمصطلح في التضمينات السياقية. تتفوق طريقتنا بشكل كبير على أربعة نماذج استرجاع حالية تنافسية ونظيراتها المجهزة بتقنيتين بديلتين من LE من خلال تدريب النماذج مع توزيع التسمية الذي تم إنشاؤه كمعلومات إشراف مساعدة. يمكن ملاحظة التفوق بسهولة على مهام الاسترجاع واسعة النطاق باللغتين الإنجليزية والصينية في كل من الإعدادات القياسية والبدء البارد.Translated Description (French)
Les modèles de récupération à grande échelle basés sur l'intégration actuels sont formés avec une étiquette matérielle 0-1 qui indique si une requête est pertinente pour un document, en ignorant les informations riches du degré de pertinence. Cet article propose d'améliorer la récupération basée sur l'intégration dans la perspective de mieux caractériser le degré de pertinence du document de requête en introduisant l'amélioration de l'étiquette (LE) pour la première fois. Pour générer une distribution d'étiquette dans le scénario de récupération, nous concevons une méthode de LE supervisée nouvelle et efficace qui intègre les connaissances antérieures des méthodes de pondération des termes dynamiques dans les intégrations contextuelles. Notre méthode surpasse de manière significative quatre modèles de récupération existants compétitifs et ses homologues équipés de deux techniques de LE alternatives en formant des modèles avec la distribution d'étiquette générée comme informations de supervision auxiliaires. La supériorité peut être facilement observée sur les tâches de récupération à grande échelle en anglais et en chinois dans les paramètres standard et de démarrage à froid.Translated Description (Spanish)
Los modelos actuales de recuperación a gran escala basados en incrustaciones se entrenan con una etiqueta dura 0-1 que indica si una consulta es relevante para un documento, ignorando la información rica del grado de relevancia. Este documento propone mejorar la recuperación basada en incrustaciones desde la perspectiva de caracterizar mejor el grado de relevancia del documento de consulta mediante la introducción de la mejora de etiquetas (LE) por primera vez. Para generar la distribución de etiquetas en el escenario de recuperación, diseñamos un método LE supervisado novedoso y efectivo que incorpora el conocimiento previo de los métodos de ponderación de términos dinámicos en incrustaciones contextuales. Nuestro método supera significativamente cuatro modelos de recuperación existentes competitivos y sus contrapartes equipadas con dos técnicas alternativas de LE mediante el entrenamiento de modelos con la distribución de etiquetas generada como información de supervisión auxiliar. La superioridad se puede observar fácilmente en tareas de recuperación a gran escala en inglés y chino tanto en entornos estándar como de arranque en frío.Files
2021.findings-emnlp.13.pdf.pdf
Files
(1.2 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:e12a2c72a70584db64a638769d046841
|
1.2 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحسين الاسترجاع واسع النطاق القائم على التضمين عبر تحسين الملصقات
- Translated title (French)
- Amélioration de la récupération à grande échelle basée sur l'intégration via l'amélioration des étiquettes
- Translated title (Spanish)
- Mejora de la recuperación a gran escala basada en incrustaciones a través de la mejora de etiquetas
Identifiers
- Other
- https://openalex.org/W3213768855
- DOI
- 10.18653/v1/2021.findings-emnlp.13
References
- https://openalex.org/W2250539671
- https://openalex.org/W2963341956
- https://openalex.org/W2963748441
- https://openalex.org/W2964751466
- https://openalex.org/W2970641574
- https://openalex.org/W2987861506
- https://openalex.org/W3015381124
- https://openalex.org/W3035347809
- https://openalex.org/W3090144559
- https://openalex.org/W3094444847
- https://openalex.org/W3098468692
- https://openalex.org/W3105698638
- https://openalex.org/W3106031450
- https://openalex.org/W3168051837
- https://openalex.org/W4252076394