Published January 1, 2023 | Version v1
Publication Open

A Novel Metadata Based Multi-Label Document Classification Technique

  • 1. Pir Mehr Ali Shah Arid Agriculture University
  • 2. Imam Abdulrahman Bin Faisal University
  • 3. Tun Hussein Onn University of Malaysia
  • 4. University of Business and Technology
  • 5. King Fahd University of Petroleum and Minerals

Description

From the beginning, the process of research and its publication is an ever-growing phenomenon and with the emergence of web technologies, its growth rate is overwhelming. On a rough estimate, more than thirty thousand research journals have been issuing around four million papers annually on average. Search engines, indexing services, and digital libraries have been searching for such publications over the web. Nevertheless, getting the most relevant articles against the user requests is yet a fantasy. It is mainly because the articles are not appropriately indexed based on the hierarchies of granular subject classification. To overcome this issue, researchers are striving to investigate new techniques for the classification of the research articles especially, when the complete article text is not available (a case of non-open access articles). The proposed study aims to investigate the multilabel classification over the available metadata in the best possible way and to assess, "to what extent metadata-based features can perform in contrast to content-based approaches." In this regard, novel techniques for investigating multilabel classification have been proposed, developed, and evaluated on metadata such as the Title and Keywords of the articles. The proposed technique has been assessed for two diverse datasets, namely, from the Journal of universal computer science (J.UCS) and the benchmark dataset comprises of the articles published by the Association for computing machinery (ACM). The proposed technique yields encouraging results in contrast to the state-of-the-art techniques in the literature.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

منذ البداية، تعد عملية البحث ونشره ظاهرة متنامية باستمرار ومع ظهور تقنيات الويب، يكون معدل نموها ساحقًا. في تقدير تقريبي، تصدر أكثر من ثلاثين ألف مجلة بحثية حوالي أربعة ملايين ورقة بحثية سنويًا في المتوسط. تبحث محركات البحث وخدمات الفهرسة والمكتبات الرقمية عن مثل هذه المنشورات عبر الويب. ومع ذلك، فإن الحصول على المقالات الأكثر ملاءمة لطلبات المستخدم لا يزال خيالًا. ويرجع ذلك أساسًا إلى عدم فهرسة المقالات بشكل مناسب بناءً على التسلسل الهرمي لتصنيف الموضوع الحبيبي. للتغلب على هذه المشكلة، يسعى الباحثون جاهدين للتحقيق في التقنيات الجديدة لتصنيف المقالات البحثية خاصة، عندما لا يكون نص المقالة الكامل متاحًا (حالة مقالات الوصول غير المفتوحة). تهدف الدراسة المقترحة إلى التحقيق في التصنيف متعدد العلامات على البيانات الوصفية المتاحة بأفضل طريقة ممكنة وتقييم "إلى أي مدى يمكن أن تؤدي الميزات القائمة على البيانات الوصفية على النقيض من الأساليب القائمة على المحتوى." في هذا الصدد، تم اقتراح تقنيات جديدة للتحقيق في التصنيف متعدد التسميات وتطويرها وتقييمها على البيانات الوصفية مثل العنوان والكلمات الرئيسية للمقالات. تم تقييم التقنية المقترحة لمجموعتي بيانات مختلفتين، وهما، من مجلة علوم الكمبيوتر العالمية (J.UCS) وتتألف مجموعة البيانات المعيارية من المقالات التي نشرتها جمعية آلات الحوسبة (ACM). تعطي التقنية المقترحة نتائج مشجعة على النقيض من أحدث التقنيات في الأدبيات.

Translated Description (French)

Dès le début, le processus de recherche et sa publication est un phénomène toujours croissant et avec l'émergence des technologies Web, son taux de croissance est écrasant. Selon une estimation approximative, plus de trente mille revues de recherche ont publié en moyenne environ quatre millions d'articles par an. Les moteurs de recherche, les services d'indexation et les bibliothèques numériques recherchent ces publications sur le Web. Néanmoins, obtenir les articles les plus pertinents contre les demandes des utilisateurs est encore un fantasme. C'est principalement parce que les articles ne sont pas correctement indexés sur la base des hiérarchies de classification granulaire des sujets. Pour surmonter ce problème, les chercheurs s'efforcent d'étudier de nouvelles techniques de classification des articles de recherche, en particulier lorsque le texte complet de l'article n'est pas disponible (cas des articles non ouverts). L'étude proposée vise à étudier la classification à étiquettes multiples sur les métadonnées disponibles de la meilleure façon possible et à évaluer « dans quelle mesure les fonctionnalités basées sur les métadonnées peuvent fonctionner contrairement aux approches basées sur le contenu.À cet égard, de nouvelles techniques d'enquête sur la classification multilabel ont été proposées, développées et évaluées sur des métadonnées telles que le titre et les mots-clés des articles. La technique proposée a été évaluée pour deux ensembles de données divers, à savoir, à partir du Journal of universal computer science (J.UCS) et l'ensemble de données de référence comprend les articles publiés par l'Association for computing machinery (ACM). La technique proposée donne des résultats encourageants contrairement aux techniques de pointe de la littérature.

Translated Description (Spanish)

Desde el principio, el proceso de investigación y su publicación es un fenómeno cada vez mayor y con la aparición de las tecnologías web, su tasa de crecimiento es abrumadora. En una estimación aproximada, más de treinta mil revistas de investigación han estado publicando alrededor de cuatro millones de artículos al año en promedio. Los motores de búsqueda, los servicios de indexación y las bibliotecas digitales han estado buscando tales publicaciones en la web. Sin embargo, obtener los artículos más relevantes en contra de las solicitudes de los usuarios sigue siendo una fantasía. Esto se debe principalmente a que los artículos no están indexados adecuadamente en función de las jerarquías de clasificación granular de temas. Para superar este problema, los investigadores se esfuerzan por investigar nuevas técnicas para la clasificación de los artículos de investigación, especialmente cuando el texto completo del artículo no está disponible (un caso de artículos de acceso no abierto). El estudio propuesto tiene como objetivo investigar la clasificación de múltiples etiquetas sobre los metadatos disponibles de la mejor manera posible y evaluar "en qué medida las características basadas en metadatos pueden funcionar en contraste con los enfoques basados en el contenido.En este sentido, se han propuesto, desarrollado y evaluado nuevas técnicas para investigar la clasificación de etiquetas múltiples en metadatos como el título y las palabras clave de los artículos. La técnica propuesta se ha evaluado para dos conjuntos de datos diversos, a saber, del Journal of universal computer science (J.UCS) y el conjunto de datos de referencia comprende los artículos publicados por la Association for computing machinery (ACM). La técnica propuesta produce resultados alentadores en contraste con las técnicas de vanguardia en la literatura.

Files

TSP_CSSE_33844.pdf.pdf

Files (924.8 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:a2d2fb7aacb690d561cfebc5f40e5955
924.8 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تقنية جديدة لتصنيف المستندات متعددة التسميات القائمة على البيانات الوصفية
Translated title (French)
Une nouvelle technique de classification de documents multi-étiquettes basée sur les métadonnées
Translated title (Spanish)
Una nueva técnica de clasificación de documentos de múltiples etiquetas basada en metadatos

Identifiers

Other
https://openalex.org/W4319660025
DOI
10.32604/csse.2023.033844

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1987529250
  • https://openalex.org/W1995201815
  • https://openalex.org/W2019819187
  • https://openalex.org/W2022645200
  • https://openalex.org/W2046737577
  • https://openalex.org/W2075688077
  • https://openalex.org/W2145697164
  • https://openalex.org/W2181382620
  • https://openalex.org/W2263270445
  • https://openalex.org/W2295547459
  • https://openalex.org/W2343999414
  • https://openalex.org/W2469871536
  • https://openalex.org/W2571558254
  • https://openalex.org/W2800318991
  • https://openalex.org/W2801743521
  • https://openalex.org/W2894336795
  • https://openalex.org/W2897098357
  • https://openalex.org/W2978182211
  • https://openalex.org/W2981089724
  • https://openalex.org/W2996371887
  • https://openalex.org/W2999157599
  • https://openalex.org/W3005236729
  • https://openalex.org/W3134417437
  • https://openalex.org/W3136573362
  • https://openalex.org/W3150593357
  • https://openalex.org/W3162745513
  • https://openalex.org/W3216171594
  • https://openalex.org/W4200286084
  • https://openalex.org/W4281666515
  • https://openalex.org/W4307874036