Automatic Generation of Citation Texts in Scholarly Papers: A Pilot Study
Description
In this paper, we study the challenging problem of automatic generation of citation texts in scholarly papers.Given the context of a citing paper A and a cited paper B, the task aims to generate a short text to describe B in the given context of A. One big challenge for addressing this task is the lack of training data.Usually, explicit citation texts are easy to extract, but it is not easy to extract implicit citation texts from scholarly papers.We thus first train an implicit citation text extraction model based on BERT and leverage the model to construct a large training dataset for the citation text generation task.Then we propose and train a multi-source pointer-generator network with cross attention mechanism for citation text generation.Empirical evaluation results on a manually labeled test dataset verify the efficacy of our model.This pilot study confirms the feasibility of automatically generating citation texts in scholarly papers and the technique has the great potential to help researchers prepare their scientific papers.
Translated Descriptions
Translated Description (Arabic)
في هذه الورقة، ندرس المشكلة الصعبة المتمثلة في التوليد التلقائي لنصوص الاستشهاد في الأوراق العلمية. نظرًا لسياق ورقة الاستشهاد A وورقة الاستشهاد B، تهدف المهمة إلى إنشاء نص قصير لوصف B في السياق المحدد لـ A. أحد التحديات الكبيرة لمعالجة هذه المهمة هو نقص بيانات التدريب. عادةً ما يكون من السهل استخراج نصوص الاستشهاد الصريحة، ولكن ليس من السهل استخراج نصوص الاستشهاد الضمني من الأوراق العلمية. وبالتالي نقوم أولاً بتدريب نموذج استخراج نص الاستشهاد الضمني بناءً على بيرت والاستفادة من النموذج لبناء مجموعة بيانات تدريب كبيرة لمهمة إنشاء نص الاستشهاد. ثم نقترح وندرب شبكة مولد مؤشرات متعددة المصادر مع آلية اهتمام متقاطع لتوليد نصوص الاستشهاد. نتائج التقييم التجريبي على مجموعة بيانات اختبار مصنفة يدويًا تتحقق من فعالية نموذجنا. تؤكد هذه الدراسة التجريبية جدوى إنشاء نصوص الاستشهاد تلقائيًا في الأوراق العلمية والتقنية لديها القدرة الكبيرة على مساعدة الباحثين في إعداد أوراقهم العلمية.Translated Description (French)
Dans cet article, nous étudions le problème difficile de la génération automatique de textes de citation dans les articles savants. Compte tenu du contexte d'un article de citation A et d'un article cité B, la tâche vise à générer un texte court pour décrire B dans le contexte donné de A. Un grand défi pour aborder cette tâche est le manque de données de formation. Habituellement, les textes de citation explicites sont faciles à extraire, mais il n'est pas facile d'extraire les textes de citation implicites des articles savants. Nous formons donc d'abord un modèle d'extraction de texte de citation implicite basé sur BERT et tirons parti du modèle pour construire un grand ensemble de données de formation pour la tâche de génération de texte de citation. Ensuite, nous proposons et formons un réseau pointeur-générateur multi-sources avec mécanisme d'attention croisée pour la génération de texte de citation. Les résultats de l'évaluation empirique sur un ensemble de données de test étiqueté manuellement vérifient l'efficacité de notre modèle. Cette étude pilote confirme la faisabilité de la génération automatique de textes de citation dans les articles savants et la technique a le grand potentiel d'aider les chercheurs à préparer leurs articles scientifiques.Translated Description (Spanish)
En este artículo, estudiamos el desafiante problema de la generación automática de textos de citas en artículos académicos. Dado el contexto de un artículo de citas A y un artículo citado B, la tarea tiene como objetivo generar un texto corto para describir B en el contexto dado de A. Un gran desafío para abordar esta tarea es la falta de datos de capacitación. Por lo general, los textos de citas explícitas son fáciles de extraer, pero no es fácil extraer textos de citas implícitas de artículos académicos. Por lo tanto, primero entrenamos un modelo de extracción de texto de citas implícitas basado en BERT y aprovechamos el modelo para construir un gran conjunto de datos de capacitación para la tarea de generación de texto de citas. Luego proponemos y entrenamos una red de generadores de punteros de múltiples fuentes con un mecanismo de atención cruzada para la generación de texto de citas. Los resultados de la evaluación empírica en un conjunto de datos de prueba etiquetados manualmente verifican la eficacia de nuestro modelo. Este estudio piloto confirma la viabilidad de generar automáticamente textos de citas en artículos académicos y la técnica tiene el gran potencial para ayudar a los investigadores a preparar sus artículos científicos.Files
2020.acl-main.550.pdf.pdf
Files
(226 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:5360980bad11bf9723da89687501effc
|
226 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- التوليد التلقائي لنصوص الاقتباس في الأوراق العلمية: دراسة تجريبية
- Translated title (French)
- Génération automatique de textes de citations dans des articles savants : une étude pilote
- Translated title (Spanish)
- Generación automática de textos de citas en trabajos académicos: un estudio piloto
Identifiers
- Other
- https://openalex.org/W3034209683
- DOI
- 10.18653/v1/2020.acl-main.550
References
- https://openalex.org/W1505386820
- https://openalex.org/W1974339500
- https://openalex.org/W2018355342
- https://openalex.org/W2050715302
- https://openalex.org/W2075263902
- https://openalex.org/W2097433297
- https://openalex.org/W2102258316
- https://openalex.org/W2135754437
- https://openalex.org/W2149801561
- https://openalex.org/W2153568396
- https://openalex.org/W2154652894
- https://openalex.org/W2154976069
- https://openalex.org/W2160992478
- https://openalex.org/W2166347079
- https://openalex.org/W2178628967
- https://openalex.org/W2250622761
- https://openalex.org/W2402496060
- https://openalex.org/W2571932860
- https://openalex.org/W2606974598
- https://openalex.org/W2750900007
- https://openalex.org/W2900064782
- https://openalex.org/W2963341956
- https://openalex.org/W2964308564
- https://openalex.org/W2972111982
- https://openalex.org/W3102538306
- https://openalex.org/W44474723