Published January 1, 2022 | Version v1
Publication Open

Keyphrase Generation via Soft and Hard Semantic Corrections

  • 1. Ministry of Education of the People's Republic of China
  • 2. Southeast University

Description

Keyphrase generation aims to generate a set of condensed phrases given a source document.Although maximum likelihood estimation (MLE) based keyphrase generation methods have shown impressive performance, they suffer from the bias on the source-prediction pair and the bias on the prediction-target pair.To tackle the above biases, we propose a novel correction model CorrKG on top of the MLE pipeline, where the biases are corrected via the optimal transport (OT) and a frequency-based filtering-and-sorting (FreqFS) strategy.Specifically, OT is introduced as the soft correction to facilitate the alignment of salient information and rectify the semantic bias on the source document and predicted keyphrases pair.An adaptive semantic mass learning scheme is conducted on the vanilla OT to achieve a proper pair-wise optimal transport procedure, which promotes the OT calculation brought by rectifying semantic masses dynamically.Besides, the FreqFS strategy is designed as the hard correction to reduce the bias of predicted and target keyphrases, and thus generate accurate and sufficient keyphrases.Extensive experiments over multiple benchmark datasets show that our model achieves superior keyphrase generation as compared with the state-of-the-arts. IntroductionKeyphrase generation is an important and meaningful task that converts the main semantic information of the document into multiple keyphrases.Keyphrases can further be divided into present keyphrases and absent keyphrases, with the former appearing in the document whereas the latter do not.High-quality keyphrases are beneficial for many downstream tasks, such as text summarization (Wang and Cardie, 2013), document clustering (Hammouda et al., 2005), translation (Tang et al., 2016), and so forth.Despite the promising suc-* The first two authors contribute equally to this work.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يهدف إنشاء عبارات المفاتيح إلى توليد مجموعة من العبارات المكثفة مع إعطاء مستند مصدر. على الرغم من أن طرق إنشاء عبارات المفاتيح القائمة على تقدير الاحتمال الأقصى (MLE) قد أظهرت أداءً مثيرًا للإعجاب، إلا أنها تعاني من التحيز على زوج التنبؤ بالمصدر والتحيز على زوج التنبؤ بالهدف. لمعالجة التحيزات المذكورة أعلاه، نقترح نموذج تصحيح جديد CorrKG على رأس خط أنابيب MLE، حيث يتم تصحيح التحيزات عبر النقل الأمثل (OT) واستراتيجية التصفية والفرز القائمة على التردد (FreqFS). على وجه التحديد، يتم تقديم العلاج الوظيفي كتصحيح ناعم لتسهيل محاذاة المعلومات البارزة وتصحيح التحيز الدلالي على المستند المصدر وزوج العبارات الرئيسية المتوقعة. يتم إجراء مخطط تعلم جماعي دلالي تكيفي على العلاج الوظيفي بالفانيليا لتحقيق إجراء نقل مثالي مناسب من الناحية الزوجية، مما يعزز حساب العلاج الوظيفي الناتج عن تصحيح الكتل الدلالية ديناميكيًا. إلى جانب ذلك، تم تصميم استراتيجية FreqFS كتصحيح صعب لتقليل تحيز العبارات الرئيسية المتوقعة والمستهدفة، وبالتالي توليد عبارات رئيسية دقيقة وكافية. تُظهر التجارب المكثفة على مجموعات بيانات مرجعية متعددة أن نموذجنا يحقق توليد كلمات رئيسية متفوقة مقارنة بأحدث التقنيات. مقدمة يعد إنشاء عبارات المفاتيح مهمة مهمة وذات مغزى تحول المعلومات الدلالية الرئيسية للمستند إلى عبارات رئيسية متعددة. يمكن تقسيم عبارات المفاتيح إلى عبارات مفاتيح حالية وعبارات مفاتيح غائبة، مع ظهور الأولى في المستند في حين أن الأخيرة لا تفعل ذلك. العبارات الرئيسية عالية الجودة مفيدة للعديد من المهام النهائية، مثل تلخيص النص (وانغ وكاردي، 2013)، وتجميع المستندات (حمودة وآخرون، 2005)، والترجمة (تانغ وآخرون، 2016)، وما إلى ذلك. على الرغم من النجاح الواعد - * يساهم المؤلفان الأولان بالتساوي في هذا العمل.

Translated Description (French)

Bien que les méthodes de génération de phrases-clés basées sur l'estimation du maximum de vraisemblance (MLE) aient montré des performances impressionnantes, elles souffrent du biais sur la paire source-prédiction et du biais sur la paire prédiction-cible. Pour s'attaquer aux biais ci-dessus, nous proposons un nouveau modèle de correction CorrKG au-dessus du pipeline MLE, où les biais sont corrigés via le transport optimal (OT) et une stratégie de filtrage et de tri basée sur la fréquence (FreqFS). Spécifiquement, L'OT est introduit en tant que correction douce pour faciliter l'alignement des informations saillantes et rectifier le biais sémantique sur le document source et la paire de phrases clés prédites. Un schéma d'apprentissage de masse sémantique adaptatif est mené sur l'OT vanille pour obtenir une procédure de transport optimale appropriée par paire, qui favorise le calcul de l'OT apporté par la rectification dynamique des masses sémantiques. De plus, la stratégie FreqFS est conçue comme la correction dure pour réduire le biais des phrases clés prédites et cibles, et ainsi générer des phrases clés précises et suffisantes. Des expériences approfondies sur plusieurs ensembles de données de référence montrent que notre modèle permet une génération de phrases clés supérieure en tant que par rapport à l'état de l'art. IntroductionLa génération de phrases-clés est une tâche importante et significative qui convertit les principales informations sémantiques du document en plusieurs phrases-clés. Les phrases-clés peuvent en outre être divisées en phrases-clés actuelles et en phrases-clés absentes, les premières apparaissant dans le document alors que les secondes ne le sont pas. Les phrases-clés de haute qualité sont bénéfiques pour de nombreuses tâches en aval, telles que la synthèse de texte (Wang et Cardie, 2013), le regroupement de documents (Hammouda et al., 2005), la traduction (Tang et al., 2016), etc. Malgré la réussite prometteuse, les deux premiers auteurs contribuent également à ce travail.

Translated Description (Spanish)

La generación de frases clave tiene como objetivo generar un conjunto de frases condensadas dado un documento de origen. Aunque los métodos de generación de frases clave basados en la estimación de máxima verosimilitud (MLE) han mostrado un rendimiento impresionante, sufren el sesgo en el par de predicción de origen y el sesgo en el par de predicción-objetivo. Para abordar los sesgos anteriores, proponemos un nuevo modelo de corrección CorrKG en la parte superior de la tubería MLE, donde los sesgos se corrigen a través del transporte óptimo (OT) y una estrategia de filtrado y clasificación basada en la frecuencia (FreqFS). Específicamente, La TO se presenta como la corrección suave para facilitar la alineación de la información destacada y rectificar el sesgo semántico en el documento fuente y el par de frases clave predichas. Se lleva a cabo un esquema de aprendizaje masivo semántico adaptativo en la TO vainilla para lograr un procedimiento de transporte óptimo por pares adecuado, que promueve el cálculo de la TO mediante la rectificación dinámica de las masas semánticas. Además, la estrategia FreqFS está diseñada como la corrección dura para reducir el sesgo de las frases clave predichas y objetivo, y así generar frases clave precisas y suficientes. Los experimentos exhaustivos sobre múltiples conjuntos de datos de referencia muestran que nuestro modelo logra una generación de frases clave superior como en comparación con el estado de la técnica. IntroducciónLa generación de frases clave es una tarea importante y significativa que convierte la información semántica principal del documento en múltiples frases clave. Las frases clave se pueden dividir en frases clave presentes y frases clave ausentes, y las primeras aparecen en el documento, mientras que las últimas no. Las frases clave de alta calidad son beneficiosas para muchas tareas posteriores, como el resumen de texto (Wang y Cardie, 2013), la agrupación de documentos (Hammouda et al., 2005), la traducción (Tang et al., 2016), etc. A pesar del prometedor éxito- * Los primeros dos autores contribuyen por igual a este trabajo.

Files

2022.emnlp-main.529.pdf.pdf

Files (1.2 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:0549452feb4f1bc280da3878c1efca68
1.2 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
توليد العبارات المفتاحية عبر التصحيحات الدلالية الناعمة والصعبة
Translated title (French)
Génération de phrases-clés via des corrections sémantiques douces et dures
Translated title (Spanish)
Generación de frases clave a través de correcciones semánticas suaves y duras

Identifiers

Other
https://openalex.org/W4385567139
DOI
10.18653/v1/2022.emnlp-main.529

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China