Exploring Graph Bushy Paths to Improve Statistical Multilingual Automatic Text Summarization
- 1. École Nationale Supérieure d'Informatique
Description
Statistical extractive summarization is one of the most exploited approach in automatic text summarization due to its generation speed, implementation easiness and multilingual property. We want to improve statistical sentence scoring by exploring a simple, yet powerful, property of graphs called bushy paths represented by the number of node's neighbors. A graph of similarities is constructed in order to select candidate sentences. Statistical features such as sentence position, sentence length, term frequency and sentences similarities are used to get a primary score for each candidate sentence. The graph is used again to enhance the primary score by using bushy paths property. Also, we tried to exploit the graph in order to enhance summary's coherence. We experimented our method using MultiLing'15 workshop's corpora for multilingual single document summarization. Using graph properties can improve statistical scoring without loosing the multilingualism of the method.
Translated Descriptions
Translated Description (Arabic)
يعد التلخيص الاستخراجي الإحصائي أحد أكثر الأساليب استغلالًا في تلخيص النص التلقائي نظرًا لسرعة توليده وسهولة تنفيذه وخصائصه متعددة اللغات. نريد تحسين تسجيل الجمل الإحصائية من خلال استكشاف خاصية بسيطة، ولكنها قوية، للرسوم البيانية تسمى المسارات الكثيفة التي يمثلها عدد جيران العقدة. يتم إنشاء رسم بياني لأوجه التشابه من أجل اختيار الجمل المرشحة. تُستخدم السمات الإحصائية مثل موضع الجملة وطول الجملة وتكرار المصطلح وتشابه الجمل للحصول على درجة أساسية لكل جملة مرشحة. يتم استخدام الرسم البياني مرة أخرى لتعزيز النتيجة الأساسية باستخدام خاصية المسارات الكثيفة. أيضًا، حاولنا استغلال الرسم البياني من أجل تعزيز تماسك الملخص. لقد جربنا طريقتنا باستخدام مجموعة ورش عمل MultiLing '15 لتلخيص مستند واحد متعدد اللغات. يمكن أن يؤدي استخدام خصائص الرسم البياني إلى تحسين التسجيل الإحصائي دون فقدان التعددية اللغوية للطريقة.Translated Description (French)
La synthèse statistique extractive est l'une des approches les plus exploitées dans la synthèse automatique de texte en raison de sa vitesse de génération, de sa facilité de mise en œuvre et de ses propriétés multilingues. Nous voulons améliorer la notation statistique des phrases en explorant une propriété simple, mais puissante, des graphiques appelés chemins touffus représentés par le nombre de voisins du nœud. Un graphique des similitudes est construit afin de sélectionner les phrases candidates. Les caractéristiques statistiques telles que la position de la phrase, la longueur de la phrase, la fréquence des termes et les similitudes des phrases sont utilisées pour obtenir un score primaire pour chaque phrase candidate. Le graphique est à nouveau utilisé pour améliorer le score principal en utilisant la propriété des chemins touffus. En outre, nous avons essayé d'exploiter le graphique afin d'améliorer la cohérence du résumé. Nous avons expérimenté notre méthode en utilisant les corpus de l'atelier MultiLing'15 pour la synthèse multilingue d'un seul document. L'utilisation de propriétés de graphe peut améliorer la notation statistique sans perdre le multilinguisme de la méthode.Translated Description (Spanish)
El resumen extractivo estadístico es uno de los enfoques más explotados en el resumen automático de textos debido a su velocidad de generación, facilidad de implementación y propiedad multilingüe. Queremos mejorar la puntuación estadística de las oraciones explorando una propiedad simple, pero poderosa, de los gráficos llamados caminos tupidos representados por el número de vecinos del nodo. Se construye un gráfico de similitudes para seleccionar oraciones candidatas. Las características estadísticas, como la posición de la oración, la longitud de la oración, la frecuencia de los términos y las similitudes de las oraciones, se utilizan para obtener una puntuación primaria para cada oración candidata. El gráfico se utiliza de nuevo para mejorar la puntuación principal mediante el uso de la propiedad de rutas tupidas. Además, intentamos explotar el gráfico para mejorar la coherencia del resumen. Experimentamos nuestro método utilizando los corpus del taller MultiLing'15 para el resumen multilingüe de un solo documento. El uso de propiedades gráficas puede mejorar la puntuación estadística sin perder el multilingüismo del método.Files
document.pdf
Files
(430.7 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:77ae98e5e6ed33e5d3489280883fa4f1
|
430.7 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- استكشاف المسارات الكثيفة للرسم البياني لتحسين تلخيص النص التلقائي الإحصائي متعدد اللغات
- Translated title (French)
- Exploration des chemins de graphes buissonneux pour améliorer la synthèse automatique de texte multilingue statistique
- Translated title (Spanish)
- Exploración de caminos arbustivos gráficos para mejorar el resumen de texto automático multilingüe estadístico
Identifiers
- Other
- https://openalex.org/W2798526981
- DOI
- 10.1007/978-3-319-89743-1_8
References
- https://openalex.org/W1972028996
- https://openalex.org/W1974339500
- https://openalex.org/W1980662216
- https://openalex.org/W2055452728
- https://openalex.org/W2066636486
- https://openalex.org/W2066972299
- https://openalex.org/W2072284402
- https://openalex.org/W2074276750
- https://openalex.org/W2075006521
- https://openalex.org/W2092246763
- https://openalex.org/W2094515246
- https://openalex.org/W2101390659
- https://openalex.org/W2141514700
- https://openalex.org/W2166347079
- https://openalex.org/W2250874297