Published June 4, 2021 | Version v1
Publication

In-text citation's frequencies-based recommendations of relevant research papers

  • 1. Kohat University of Science and Technology
  • 2. Namal College
  • 3. Taif University
  • 4. Princess Nourah bint Abdulrahman University

Description

From the past half of a century, identification of the relevant documents is deemed an active area of research due to the rapid increase of data on the web. The traditional models to retrieve relevant documents are based on bibliographic information such as Bibliographic coupling, Co-citations, and Direct citations. However, in the recent past, the scientific community has started to employ textual features to improve existing models' accuracy. In our previous study, we found that analysis of citations at a deep level (i.e., content level) can play a paramount role in finding more relevant documents than surface level (i.e., just bibliography details). We found that cited and citing papers have a high degree of relevancy when in-text citations frequency of the cited paper is more than five times in the citing paper's text. This paper is an extension of our previous study in terms of its evaluation of a comprehensive dataset. Moreover, the study results are also compared with other state-of-the-art approaches i.e., content, metadata, and bibliography. For evaluation, a user study is conducted on selected papers from 1,200 documents (comprise about 16,000 references) of an online journal, Journal of Computer Science (J.UCS). The evaluation results indicate that in-text citation frequency has attained higher precision in finding relevant papers than other state-of-the-art techniques such as content, bibliographic coupling, and metadata-based techniques. The use of in-text citation may help in enhancing the quality of existing information systems and digital libraries. Further, more sophisticated measure may be redefined be considering the use of in-text citations.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

من نصف القرن الماضي، يعتبر تحديد الوثائق ذات الصلة مجالًا نشطًا للبحث بسبب الزيادة السريعة في البيانات على الويب. تستند النماذج التقليدية لاسترداد الوثائق ذات الصلة إلى المعلومات الببليوغرافية مثل الاقتران الببليوغرافي والاقتباسات المشتركة والاستشهادات المباشرة. ومع ذلك، في الماضي القريب، بدأ المجتمع العلمي في استخدام الميزات النصية لتحسين دقة النماذج الحالية. في دراستنا السابقة، وجدنا أن تحليل الاقتباسات على مستوى عميق (أي مستوى المحتوى) يمكن أن يلعب دورًا أساسيًا في العثور على مستندات أكثر صلة من المستوى السطحي (أي تفاصيل الببليوغرافيا فقط). وجدنا أن الأوراق المستشهد بها والاستشهاد بها تتمتع بدرجة عالية من الملاءمة عندما يكون تكرار الاستشهادات في النص للورقة المستشهد بها أكثر من خمس مرات في نص الورقة المستشهد بها. هذه الورقة هي امتداد لدراستنا السابقة من حيث تقييمها لمجموعة بيانات شاملة. علاوة على ذلك، تتم مقارنة نتائج الدراسة أيضًا مع الأساليب الحديثة الأخرى، أي المحتوى والبيانات الوصفية والببليوغرافيا. للتقييم، يتم إجراء دراسة مستخدم على أوراق مختارة من 1200 وثيقة (تتألف من حوالي 16000 مرجع) لمجلة على الإنترنت، مجلة علوم الكمبيوتر (J.UCS). تشير نتائج التقييم إلى أن تكرار الاقتباس في النص قد حقق دقة أعلى في العثور على الأوراق ذات الصلة من التقنيات الحديثة الأخرى مثل المحتوى والاقتران الببليوغرافي والتقنيات القائمة على البيانات الوصفية. قد يساعد استخدام الاقتباس النصي في تحسين جودة أنظمة المعلومات والمكتبات الرقمية الحالية. علاوة على ذلك، يمكن إعادة تعريف التدبير الأكثر تعقيدًا والنظر في استخدام الاقتباسات النصية.

Translated Description (French)

Depuis un demi-siècle, l'identification des documents pertinents est considérée comme un domaine de recherche actif en raison de l'augmentation rapide des données sur le Web. Les modèles traditionnels pour récupérer les documents pertinents sont basés sur des informations bibliographiques telles que le couplage bibliographique, les co-citations et les citations directes. Cependant, dans un passé récent, la communauté scientifique a commencé à utiliser des fonctionnalités textuelles pour améliorer la précision des modèles existants. Dans notre étude précédente, nous avons constaté que l'analyse des citations à un niveau profond (c'est-à-dire au niveau du contenu) peut jouer un rôle primordial dans la recherche de documents plus pertinents que le niveau de surface (c'est-à-dire uniquement les détails de la bibliographie). Nous avons constaté que les articles cités et cités ont un degré élevé de pertinence lorsque la fréquence des citations dans le texte de l'article cité est plus de cinq fois supérieure dans le texte de l'article cité. Cet article est une extension de notre étude précédente en termes d'évaluation d'un ensemble de données complet. De plus, les résultats de l'étude sont également comparés à d'autres approches de pointe, à savoir le contenu, les métadonnées et la bibliographie. Pour l'évaluation, une étude utilisateur est menée sur des articles sélectionnés parmi 1 200 documents (comprenant environ 16 000 références) d'une revue en ligne, Journal of Computer Science (J.UCS). Les résultats de l'évaluation indiquent que la fréquence des citations dans le texte a atteint une plus grande précision dans la recherche d'articles pertinents que d'autres techniques de pointe telles que le contenu, le couplage bibliographique et les techniques basées sur les métadonnées. L'utilisation de citations dans le texte peut aider à améliorer la qualité des systèmes d'information et des bibliothèques numériques existants. En outre, une mesure plus sophistiquée peut être redéfinie en envisageant l'utilisation de citations dans le texte.

Translated Description (Spanish)

Desde la última mitad de siglo, la identificación de los documentos relevantes se considera un área activa de investigación debido al rápido aumento de los datos en la web. Los modelos tradicionales para recuperar documentos relevantes se basan en información bibliográfica como el acoplamiento bibliográfico, las cocitaciones y las citas directas. Sin embargo, en el pasado reciente, la comunidad científica ha comenzado a emplear características textuales para mejorar la precisión de los modelos existentes. En nuestro estudio anterior, descubrimos que el análisis de citas a un nivel profundo (es decir, a nivel de contenido) puede desempeñar un papel primordial en la búsqueda de documentos más relevantes que a nivel de superficie (es decir, solo detalles de bibliografía). Encontramos que los artículos citados y citados tienen un alto grado de relevancia cuando la frecuencia de citas en el texto del artículo citado es más de cinco veces mayor en el texto del artículo citado. Este documento es una extensión de nuestro estudio anterior en términos de su evaluación de un conjunto de datos integral. Además, los resultados del estudio también se comparan con otros enfoques de vanguardia, es decir, contenido, metadatos y bibliografía. Para la evaluación, se realiza un estudio de usuarios en documentos seleccionados de 1.200 documentos (comprenden aproximadamente 16.000 referencias) de una revista en línea, Journal of Computer Science (J.UCS). Los resultados de la evaluación indican que la frecuencia de citas en el texto ha alcanzado una mayor precisión en la búsqueda de documentos relevantes que otras técnicas de vanguardia, como el contenido, el acoplamiento bibliográfico y las técnicas basadas en metadatos. El uso de citas en el texto puede ayudar a mejorar la calidad de los sistemas de información y las bibliotecas digitales existentes. Además, se puede redefinir una medida más sofisticada considerando el uso de citas en el texto.

Additional details

Additional titles

Translated title (Arabic)
توصيات الاستشهاد النصي المستندة إلى ترددات الأوراق البحثية ذات الصلة
Translated title (French)
Recommandations de documents de recherche pertinents basées sur les fréquences des citations dans le texte
Translated title (Spanish)
Recomendaciones basadas en frecuencias de citas en el texto de trabajos de investigación relevantes

Identifiers

Other
https://openalex.org/W3169992079
DOI
10.7717/peerj-cs.524

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1799284535
  • https://openalex.org/W1941175482
  • https://openalex.org/W1970859146
  • https://openalex.org/W1976829395
  • https://openalex.org/W2005207065
  • https://openalex.org/W2057954853
  • https://openalex.org/W2088336913
  • https://openalex.org/W2089589285
  • https://openalex.org/W2098162425
  • https://openalex.org/W2100774734
  • https://openalex.org/W2128438887
  • https://openalex.org/W2132631086
  • https://openalex.org/W2188264341
  • https://openalex.org/W2325227998
  • https://openalex.org/W2762538549
  • https://openalex.org/W2883288263
  • https://openalex.org/W2900201388
  • https://openalex.org/W2902050669
  • https://openalex.org/W2918649722
  • https://openalex.org/W2974012318
  • https://openalex.org/W3119694361
  • https://openalex.org/W3120655260
  • https://openalex.org/W3136573362
  • https://openalex.org/W4301736030