Reaching for upper bound ROUGE score of extractive summarization methods
- 1. Kazakh-British Technical University
- 2. Institute of Information and Computational Technologies
- 3. Instituto Politécnico Nacional
Description
The extractive text summarization (ETS) method for finding the salient information from a text automatically uses the exact sentences from the source text. In this article, we answer the question of what quality of a summary we can achieve with ETS methods? To maximize the ROUGE-1 score, we used five approaches: (1) adapted reduced variable neighborhood search (RVNS), (2) Greedy algorithm, (3) VNS initialized by Greedy algorithm results, (4) genetic algorithm, and (5) genetic algorithm initialized by the Greedy algorithm results. Furthermore, we ran experiments on articles from the arXive dataset. As a result, we found 0.59 and 0.25 scores for ROUGE-1 and ROUGE-2, respectively achievable by the approach, where the genetic algorithm initialized by the Greedy algorithm results, which happens to yield the best results out of the tested approaches. Moreover, those scores appear to be higher than scores obtained by the current state-of-the-art text summarization models: the best score in the literature for ROUGE-1 on the same data set is 0.46. Therefore, we have room for the development of ETS methods, which are now undeservedly forgotten.
Translated Descriptions
Translated Description (Arabic)
تستخدم طريقة تلخيص النص الاستخراجي (ETS) للعثور على المعلومات البارزة من النص تلقائيًا الجمل الدقيقة من النص المصدر. في هذه المقالة، نجيب على السؤال حول جودة الملخص الذي يمكننا تحقيقه باستخدام طرق ETS ؟ لتعظيم درجة ROUGE -1، استخدمنا خمسة مناهج: (1) تكييف البحث عن الأحياء المتغيرة (RVNS)، (2) خوارزمية الجشع، (3) VNS التي تمت تهيئتها بواسطة نتائج خوارزمية الجشع، (4) الخوارزمية الجينية، و (5) الخوارزمية الجينية التي تمت تهيئتها بواسطة نتائج خوارزمية الجشع. علاوة على ذلك، أجرينا تجارب على مقالات من مجموعة بيانات arXive. نتيجة لذلك، وجدنا 0.59 و 0.25 درجة لـ ROUGE -1 و ROUGE -2، على التوالي قابلة للتحقيق من خلال النهج، حيث تمت تهيئة الخوارزمية الجينية بواسطة نتائج خوارزمية الجشع، والتي تحدث لتحقيق أفضل النتائج من الأساليب المختبرة. علاوة على ذلك، يبدو أن هذه الدرجات أعلى من الدرجات التي حصلت عليها نماذج تلخيص النص الحديثة الحالية: أفضل درجة في أدبيات ROUGE -1 على نفس مجموعة البيانات هي 0.46. لذلك، لدينا مجال لتطوير طرق ETS، والتي تم نسيانها الآن دون استحقاق.Translated Description (French)
La méthode de synthèse extractive de texte (ETS) pour trouver les informations saillantes d'un texte utilise automatiquement les phrases exactes du texte source. Dans cet article, nous répondons à la question de savoir quelle qualité de résumé nous pouvons atteindre avec les méthodes ETS ? Pour maximiser le score ROUGE-1, nous avons utilisé cinq approches : (1) la recherche de voisinage à variable réduite adaptée (RVNS), (2) l'algorithme Greedy, (3) le VNS initialisé par les résultats de l'algorithme Greedy, (4) l'algorithme génétique et (5) l'algorithme génétique initialisé par les résultats de l'algorithme Greedy. De plus, nous avons mené des expériences sur des articles de l'ensemble de données arXive. En conséquence, nous avons trouvé des scores de 0,59 et 0,25 pour ROUGE-1 et ROUGE-2, respectivement réalisables par l'approche, où l'algorithme génétique initialisé par l'algorithme Greedy donne les meilleurs résultats des approches testées. De plus, ces scores semblent être supérieurs aux scores obtenus par les modèles actuels de synthèse de texte de pointe : le meilleur score de la littérature pour ROUGE-1 sur le même ensemble de données est de 0,46. Par conséquent, nous avons de la place pour le développement de méthodes ETS, qui sont maintenant injustement oubliées.Translated Description (Spanish)
El método de resumen de texto extractivo (ETS) para encontrar la información destacada de un texto utiliza automáticamente las oraciones exactas del texto fuente. En este artículo, respondemos a la pregunta de ¿qué calidad de un resumen podemos lograr con los métodos de ETS? Para maximizar la puntuación de ROUGE-1, utilizamos cinco enfoques: (1) búsqueda de vecindario de variable reducida adaptada (RVNS), (2) algoritmo codicioso, (3) VNS inicializado por los resultados del algoritmo codicioso, (4) algoritmo genético y (5) algoritmo genético inicializado por los resultados del algoritmo codicioso. Además, realizamos experimentos con artículos del conjunto de datos arXive. Como resultado, encontramos puntajes de 0.59 y 0.25 para ROUGE-1 y ROUGE-2, respectivamente, alcanzables por el enfoque, donde resulta el algoritmo genético inicializado por el algoritmo Greedy, que produce los mejores resultados de los enfoques probados. Además, esas puntuaciones parecen ser más altas que las obtenidas por los modelos de resumen de texto actuales: la mejor puntuación en la literatura para ROUGE-1 en el mismo conjunto de datos es 0.46. Por lo tanto, tenemos espacio para el desarrollo de métodos ETS, que ahora están inmerecidamente olvidados.Additional details
Additional titles
- Translated title (Arabic)
- الوصول إلى درجة ROUGE العليا لطرق التلخيص الاستخراجي
- Translated title (French)
- Atteindre la limite supérieure du score ROUGE des méthodes de synthèse extractive
- Translated title (Spanish)
- Alcanzar el límite superior de la puntuación ROUGE de los métodos de resumen extractivo
Identifiers
- Other
- https://openalex.org/W4297229699
- DOI
- 10.7717/peerj-cs.1103
References
- https://openalex.org/W1974339500
- https://openalex.org/W1986254541
- https://openalex.org/W1989420837
- https://openalex.org/W2048207804
- https://openalex.org/W2091292848
- https://openalex.org/W2097571405
- https://openalex.org/W2101390659
- https://openalex.org/W2162704429
- https://openalex.org/W2191333630
- https://openalex.org/W2745601746
- https://openalex.org/W2752395160
- https://openalex.org/W2796356912
- https://openalex.org/W2963893430
- https://openalex.org/W2969740599
- https://openalex.org/W2996264288
- https://openalex.org/W3101913037
- https://openalex.org/W3118670989
- https://openalex.org/W3138907452
- https://openalex.org/W4205626559
- https://openalex.org/W4233791092
- https://openalex.org/W4248671331
- https://openalex.org/W4289694552
- https://openalex.org/W903367154