Keyphrase Extraction Using Knowledge Graphs
- 1. Chinese University of Hong Kong
- 2. Peking University
Description
Extracting keyphrases from documents automatically is an important and interesting task since keyphrases provide a quick summarization for documents. Although lots of efforts have been made on keyphrase extraction, most of the existing methods (the co-occurrence-based methods and the statistic-based methods) do not take semantics into full consideration. The co-occurrence-based methods heavily depend on the co-occurrence relations between two words in the input document, which may ignore many semantic relations. The statistic-based methods exploit the external text corpus to enrich the document, which introduce more unrelated relations inevitably. In this paper, we propose a novel approach to extract keyphrases using knowledge graphs, based on which we could detect the latent relations of two keyterms (i.e., noun words and named entities) without introducing many noises. Extensive experiments over real data show that our method outperforms the state-of-the-art methods including the graph-based co-occurrence methods and statistic-based clustering methods.
Translated Descriptions
Translated Description (Arabic)
يعد استخراج العبارات الرئيسية من المستندات تلقائيًا مهمة مهمة ومثيرة للاهتمام لأن العبارات الرئيسية توفر تلخيصًا سريعًا للمستندات. على الرغم من بذل الكثير من الجهود لاستخراج العبارات المفتاحية، إلا أن معظم الأساليب الحالية (الأساليب القائمة على التواجد المشترك والأساليب القائمة على الإحصاء) لا تأخذ علم الدلالة في الاعتبار بشكل كامل. تعتمد الأساليب القائمة على التواجد المشترك بشكل كبير على علاقات التواجد المشترك بين كلمتين في وثيقة الإدخال، والتي قد تتجاهل العديد من العلاقات الدلالية. تستغل الأساليب القائمة على الإحصاء مجموعة النصوص الخارجية لإثراء الوثيقة، والتي تقدم المزيد من العلاقات غير المترابطة حتمًا. في هذه الورقة، نقترح نهجًا جديدًا لاستخراج العبارات الرئيسية باستخدام الرسوم البيانية المعرفية، والتي يمكننا من خلالها اكتشاف العلاقات الكامنة بين مصطلحين رئيسيين (أي الكلمات الاسمية والكيانات المسماة) دون إدخال العديد من الضوضاء. تُظهر التجارب المكثفة على البيانات الحقيقية أن طريقتنا تتفوق على أحدث الأساليب بما في ذلك طرق التواجد المشترك القائمة على الرسم البياني وطرق التجميع القائمة على الإحصاء.Translated Description (French)
Extraire automatiquement des phrases-clés de documents est une tâche importante et intéressante car les phrases-clés fournissent une synthèse rapide pour les documents. Bien que de nombreux efforts aient été déployés sur l'extraction de phrases-clés, la plupart des méthodes existantes (les méthodes basées sur la co-occurrence et les méthodes basées sur la statistique) ne prennent pas pleinement en compte la sémantique. Les méthodes basées sur la co-occurrence dépendent fortement des relations de co-occurrence entre deux mots dans le document d'entrée, qui peuvent ignorer de nombreuses relations sémantiques. Les méthodes basées sur la statistique exploitent le corpus textuel externe pour enrichir le document, ce qui introduit inévitablement des relations plus indépendantes. Dans cet article, nous proposons une nouvelle approche pour extraire des phrases-clés à l'aide de graphiques de connaissances, sur la base de laquelle nous pourrions détecter les relations latentes de deux keyterms (c'est-à-dire, les mots nominaux et les entités nommées) sans introduire beaucoup de bruits. Des expériences approfondies sur des données réelles montrent que notre méthode surpasse les méthodes de pointe, y compris les méthodes de co-occurrence basées sur des graphiques et les méthodes de regroupement basées sur des statistiques.Translated Description (Spanish)
Extraer frases clave de los documentos automáticamente es una tarea importante e interesante, ya que las frases clave proporcionan un resumen rápido de los documentos. Aunque se han realizado muchos esfuerzos en la extracción de frases clave, la mayoría de los métodos existentes (los métodos basados en la co-ocurrencia y los métodos basados en estadísticas) no tienen en cuenta la semántica por completo. Los métodos basados en la co-ocurrencia dependen en gran medida de las relaciones de co-ocurrencia entre dos palabras en el documento de entrada, que pueden ignorar muchas relaciones semánticas. Los métodos basados en estadísticas explotan el corpus de texto externo para enriquecer el documento, lo que introduce inevitablemente más relaciones no relacionadas. En este artículo, proponemos un enfoque novedoso para extraer frases clave utilizando gráficos de conocimiento, a partir de los cuales podríamos detectar las relaciones latentes de dos términos clave (es decir, palabras sustantivas y entidades nombradas) sin introducir muchos ruidos. Amplios experimentos sobre datos reales muestran que nuestro método supera a los métodos de última generación, incluidos los métodos de co-ocurrencia basados en gráficos y los métodos de agrupación basados en estadísticas.Files
s41019-017-0055-z.pdf.pdf
Files
(1.5 MB)
Name | Size | Download all |
---|---|---|
md5:4c9b06389fc9d3ba7e00f5f9dfacf1af
|
1.5 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- استخراج العبارات المفتاحية باستخدام الرسوم البيانية المعرفية
- Translated title (French)
- Extraction de mots-clés à l'aide de graphiques de connaissances
- Translated title (Spanish)
- Extracción de frases clave mediante gráficos de conocimiento
Identifiers
- Other
- https://openalex.org/W2769500896
- DOI
- 10.1007/s41019-017-0055-z
References
- https://openalex.org/W1492250428
- https://openalex.org/W1971937094
- https://openalex.org/W2045181608
- https://openalex.org/W2060772621
- https://openalex.org/W2064418625
- https://openalex.org/W2076766162
- https://openalex.org/W2097385711
- https://openalex.org/W2104583100
- https://openalex.org/W2113376247
- https://openalex.org/W2117510361
- https://openalex.org/W2117831564
- https://openalex.org/W2123442489
- https://openalex.org/W2131357087
- https://openalex.org/W2145049651
- https://openalex.org/W2149795409
- https://openalex.org/W2153225416
- https://openalex.org/W2170344111
- https://openalex.org/W2260244612
- https://openalex.org/W2295058825
- https://openalex.org/W2741348116