Published May 28, 2022 | Version v1
Publication Open

A deep learning approach for context-aware citation recommendation using rhetorical zone classification and similarity to overcome cold-start problem

  • 1. University of Wales Trinity Saint David
  • 2. Leeds Beckett University
  • 3. University of the West of England
  • 4. Bahauddin Zakariya University
  • 5. Taif University

Description

Abstract In the recent decade, the citation recommendation has emerged as an important research topic due to its need for the huge size of published scientific work. Among other citation recommendation techniques, the widely used content-based filtering (CBF) exploits research articles' textual content to produce recommendations. However, CBF techniques are prone to the well-known cold-start problem. On the other hand, deep learning has shown its effectiveness in understanding the semantics of the text. The present paper proposes a citation recommendation system using deep learning models to classify rhetorical zones of the research articles and compute similarity using rhetorical zone embeddings that overcome the cold-start problem. Rhetorical zones are the predefined linguistic categories having some common characteristics about the text. A deep learning model is trained using ART and CORE datasets with an accuracy of 76 per cent. The final ranked lists of the recommendations have an average of 0.704 normalized discounted cumulative gain (nDCG) score involving ten domain experts. The proposed system is applicable for both local and global context-aware recommendations.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في العقد الأخير، برزت توصية الاقتباس كموضوع بحث مهم بسبب حاجتها إلى الحجم الهائل للعمل العلمي المنشور. من بين تقنيات توصيات الاقتباس الأخرى، تستغل التصفية القائمة على المحتوى (CBF) المستخدمة على نطاق واسع المحتوى النصي للمقالات البحثية لإنتاج توصيات. ومع ذلك، فإن تقنيات CBF عرضة لمشكلة البداية الباردة المعروفة. من ناحية أخرى، أظهر التعلم العميق فعاليته في فهم دلالات النص. تقترح هذه الورقة نظام توصية الاقتباس باستخدام نماذج التعلم العميق لتصنيف المناطق البلاغية لمقالات البحث وحساب التشابه باستخدام تضمينات المنطقة البلاغية التي تتغلب على مشكلة البداية الباردة. المناطق البلاغية هي الفئات اللغوية المحددة مسبقًا التي لها بعض الخصائص المشتركة حول النص. يتم تدريب نموذج التعلم العميق باستخدام ART ومجموعات البيانات الأساسية بدقة 76 في المائة. تحتوي القوائم النهائية المصنفة للتوصيات على متوسط 0.704 درجة مكاسب تراكمية مخفضة طبيعية (nDCG) تشمل عشرة خبراء في المجال. ينطبق النظام المقترح على كل من التوصيات المحلية والعالمية الواعية بالسياق.

Translated Description (French)

Résumé Au cours de la dernière décennie, la recommandation de citation est apparue comme un sujet de recherche important en raison de sa nécessité pour la taille énorme des travaux scientifiques publiés. Entre autres techniques de recommandation de citations, le filtrage basé sur le contenu (FBC) largement utilisé exploite le contenu textuel des articles de recherche pour produire des recommandations. Cependant, les techniques CBF sont sujettes au problème bien connu du démarrage à froid. D'autre part, l'apprentissage profond a montré son efficacité dans la compréhension de la sémantique du texte. Le présent article propose un système de recommandation de citations utilisant des modèles d'apprentissage profond pour classer les zones rhétoriques des articles de recherche et calculer la similitude à l'aide d'incrustations de zones rhétoriques qui surmontent le problème du démarrage à froid. Les zones rhétoriques sont les catégories linguistiques prédéfinies ayant certaines caractéristiques communes au texte. Un modèle d'apprentissage en profondeur est formé à L'AIDE D'ART et d'ensembles de données de BASE avec une précision de 76 %. Les listes finales classées des recommandations ont une moyenne de 0,704 score de gain cumulatif actualisé normalisé (nDCG) impliquant dix experts du domaine. Le système proposé est applicable aux recommandations locales et mondiales tenant compte du contexte.

Translated Description (Spanish)

Resumen En la última década, la recomendación de citas se ha convertido en un importante tema de investigación debido a su necesidad del enorme tamaño del trabajo científico publicado. Entre otras técnicas de recomendación de citas, el ampliamente utilizado filtrado basado en contenido (CBF) explota el contenido textual de los artículos de investigación para producir recomendaciones. Sin embargo, las técnicas de CBF son propensas al conocido problema del arranque en frío. Por otro lado, el aprendizaje profundo ha demostrado su eficacia en la comprensión de la semántica del texto. El presente documento propone un sistema de recomendación de citas que utiliza modelos de aprendizaje profundo para clasificar las zonas retóricas de los artículos de investigación y calcular la similitud utilizando incrustaciones de zonas retóricas que superan el problema del arranque en frío. Las zonas retóricas son las categorías lingüísticas predefinidas que tienen algunas características comunes sobre el texto. Un modelo de aprendizaje profundo se entrena utilizando conjuntos de datos ARTÍSTICOS y BÁSICOS con una precisión del 76%. Las listas clasificadas finales de las recomendaciones tienen una puntuación media de 0,704 de ganancia acumulada descontada normalizada (nDCG) que involucra a diez expertos en el dominio. El sistema propuesto es aplicable tanto para recomendaciones locales como globales conscientes del contexto.

Files

s12652-022-03899-6.pdf.pdf

Files (2.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:407e3e07435e206762daaf121d955694
2.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نهج التعلم العميق لتوصية الاقتباس الواعي بالسياق باستخدام تصنيف المنطقة البلاغية والتشابه للتغلب على مشكلة البداية الباردة
Translated title (French)
Une approche d'apprentissage en profondeur pour la recommandation de citations tenant compte du contexte en utilisant la classification rhétorique des zones et la similitude pour surmonter le problème de démarrage à froid
Translated title (Spanish)
Un enfoque de aprendizaje profundo para la recomendación de citas conscientes del contexto que utiliza la clasificación de zonas retóricas y la similitud para superar el problema de arranque en frío

Identifiers

Other
https://openalex.org/W4281641680
DOI
10.1007/s12652-022-03899-6

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1991181258
  • https://openalex.org/W2006802446
  • https://openalex.org/W2178628967
  • https://openalex.org/W2341468445
  • https://openalex.org/W2605035112
  • https://openalex.org/W2787905871
  • https://openalex.org/W2796792217
  • https://openalex.org/W2892535315
  • https://openalex.org/W2907230994
  • https://openalex.org/W2912655655
  • https://openalex.org/W2918649722
  • https://openalex.org/W2921770253
  • https://openalex.org/W2923988880
  • https://openalex.org/W2952059922
  • https://openalex.org/W2955483668
  • https://openalex.org/W2963081391
  • https://openalex.org/W2984786593
  • https://openalex.org/W2996946686
  • https://openalex.org/W3014030660
  • https://openalex.org/W3031353169
  • https://openalex.org/W3038580595
  • https://openalex.org/W3043016077
  • https://openalex.org/W3044384472
  • https://openalex.org/W3080359515
  • https://openalex.org/W3087714553
  • https://openalex.org/W3089538137
  • https://openalex.org/W3093419084
  • https://openalex.org/W3099732023
  • https://openalex.org/W3103298250
  • https://openalex.org/W3106777270
  • https://openalex.org/W3111112601