Published October 29, 2021 | Version v1
Publication

Inheritance metrics feats in unsupervised learning to classify unlabeled datasets and clusters in fault prediction

  • 1. Bahria University
  • 2. Capital University of Science and Technology

Description

Fault prediction is a necessity to deliver high-quality software. The absence of training data and mechanism to labeling a cluster faulty or fault-free is a topic of concern in software fault prediction (SFP). Inheritance is an important feature of object-oriented development, and its metrics measure the complexity, depth, and breadth of software. In this paper, we aim to experimentally validate how much inheritance metrics are helpful to classify unlabeled data sets besides conceiving a novel mechanism to label a cluster as faulty or fault-free. We have collected ten public data sets that have inheritance and C&K metrics. Then, these base datasets are further split into two datasets labeled as C&K with inheritance and the C&K dataset for evaluation. K-means clustering is applied, Euclidean formula to compute distances and then label clusters through the average mechanism. Finally, TPR, Recall, Precision, F1 measures, and ROC are computed to measure performance which showed an adequate impact of inheritance metrics in SFP specifically classifying unlabeled datasets and correct classification of instances. The experiment also reveals that the average mechanism is suitable to label clusters in SFP. The quality assurance practitioners can benefit from the utilization of metrics associated with inheritance for labeling datasets and clusters.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

التنبؤ بالأخطاء ضروري لتقديم برامج عالية الجودة. يعد غياب بيانات التدريب وآلية وضع العلامات على مجموعة معيبة أو خالية من الأخطاء موضوعًا مثيرًا للقلق في التنبؤ بأخطاء البرامج (SFP). الميراث هو سمة مهمة من سمات التطوير الموجه للكائنات، وتقيس مقاييسه تعقيد البرمجيات وعمقها واتساع نطاقها. في هذه الورقة، نهدف إلى التحقق تجريبيًا من مدى فائدة مقاييس الميراث في تصنيف مجموعات البيانات غير المسماة إلى جانب تصور آلية جديدة لتسمية مجموعة على أنها معيبة أو خالية من الأخطاء. لقد جمعنا عشر مجموعات بيانات عامة تحتوي على مقاييس الميراث و C&K. بعد ذلك، يتم تقسيم مجموعات البيانات الأساسية هذه إلى مجموعتين من البيانات المسماة C&K مع الميراث ومجموعة بيانات C&K للتقييم. يتم تطبيق التجميع العنقودي K - means، الصيغة الإقليدية لحساب المسافات ثم تسمية المجموعات من خلال الآلية المتوسطة. أخيرًا، يتم حساب مقاييس TPR و Recall و Precision و F1 و ROC لقياس الأداء الذي أظهر تأثيرًا كافيًا لمقاييس الميراث في SFP التي تصنف على وجه التحديد مجموعات البيانات غير المسماة والتصنيف الصحيح للحالات. تكشف التجربة أيضًا أن الآلية المتوسطة مناسبة لتسمية المجموعات في SFP. يمكن لممارسي ضمان الجودة الاستفادة من استخدام المقاييس المرتبطة بالميراث لتصنيف مجموعات البيانات والمجموعات.

Translated Description (French)

La prédiction des défauts est une nécessité pour fournir des logiciels de haute qualité. L'absence de données de formation et de mécanisme pour étiqueter un cluster défectueux ou sans défaut est un sujet de préoccupation dans la prédiction des pannes logicielles (SFP). L'héritage est une caractéristique importante du développement orienté objet, et ses métriques mesurent la complexité, la profondeur et l'étendue du logiciel. Dans cet article, nous visons à valider expérimentalement combien de métriques d'héritage sont utiles pour classer les ensembles de données non étiquetés en plus de concevoir un nouveau mécanisme pour étiqueter un cluster comme défectueux ou sans défaut. Nous avons collecté dix ensembles de données publiques qui ont des indicateurs d'héritage et de C&K. Ensuite, ces ensembles de données de base sont divisés en deux ensembles de données étiquetés C&K avec héritage et l'ensemble de données C&K pour évaluation. K-means clustering est appliqué, formule euclidienne pour calculer les distances, puis étiqueter les clusters via le mécanisme de moyenne. Enfin, les mesures TPR, Recall, Precision, F1 et roc sont calculées pour mesurer les performances qui ont montré un impact adéquat des mesures d'héritage dans SFP classant spécifiquement les ensembles de données non étiquetés et la classification correcte des instances. L'expérience révèle également que le mécanisme moyen est approprié pour étiqueter les grappes dans SFP. Les praticiens de l'assurance qualité peuvent bénéficier de l'utilisation de métriques associées à l'héritage pour l'étiquetage des ensembles de données et des clusters.

Translated Description (Spanish)

La predicción de fallas es una necesidad para ofrecer software de alta calidad. La ausencia de datos de capacitación y mecanismos para etiquetar un clúster defectuoso o libre de fallas es un tema de preocupación en la predicción de fallas de software (SFP). La herencia es una característica importante del desarrollo orientado a objetos, y sus métricas miden la complejidad, profundidad y amplitud del software. En este documento, nuestro objetivo es validar experimentalmente cuántas métricas de herencia son útiles para clasificar conjuntos de datos no etiquetados, además de concebir un mecanismo novedoso para etiquetar un clúster como defectuoso o libre de fallas. Hemos recopilado diez conjuntos de datos públicos que tienen métricas de herencia y C&K. Luego, estos conjuntos de datos base se dividen en dos conjuntos de datos etiquetados como C&K con herencia y el conjunto de datos de C&K para su evaluación. Se aplica el agrupamiento de K-medias, fórmula euclidiana para calcular distancias y luego etiquetar grupos a través del mecanismo promedio. Finalmente, las medidas TPR, Recall, Precision, F1 y Roc se calculan para medir el rendimiento que mostró un impacto adecuado de las métricas de herencia en SFP, clasificando específicamente conjuntos de datos no etiquetados y la clasificación correcta de las instancias. El experimento también revela que el mecanismo medio es adecuado para etiquetar grupos en SFP. Los profesionales del aseguramiento de la calidad pueden beneficiarse de la utilización de métricas asociadas con la herencia para etiquetar conjuntos de datos y grupos.

Additional details

Additional titles

Translated title (Arabic)
مفاخر مقاييس الميراث في التعلم غير الخاضع للإشراف لتصنيف مجموعات البيانات غير المسماة والمجموعات في التنبؤ بالأخطاء
Translated title (French)
Les métriques de l'héritage réussissent dans l'apprentissage non supervisé pour classer les ensembles de données et les grappes non étiquetés dans la prédiction des pannes
Translated title (Spanish)
Las hazañas de las métricas de herencia en el aprendizaje no supervisado para clasificar conjuntos de datos y clústeres no etiquetados en la predicción de fallas

Identifiers

Other
https://openalex.org/W3209844427
DOI
10.7717/peerj-cs.722

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W14024862
  • https://openalex.org/W1501500081
  • https://openalex.org/W1571717828
  • https://openalex.org/W1572943522
  • https://openalex.org/W1594924988
  • https://openalex.org/W168970045
  • https://openalex.org/W1884377372
  • https://openalex.org/W1965819307
  • https://openalex.org/W1975040830
  • https://openalex.org/W1980851144
  • https://openalex.org/W1981924707
  • https://openalex.org/W1988137288
  • https://openalex.org/W1989664908
  • https://openalex.org/W1994348648
  • https://openalex.org/W1994885765
  • https://openalex.org/W1995921850
  • https://openalex.org/W2001203840
  • https://openalex.org/W2012319196
  • https://openalex.org/W2017439596
  • https://openalex.org/W2024199384
  • https://openalex.org/W2025700486
  • https://openalex.org/W2026750231
  • https://openalex.org/W2031416227
  • https://openalex.org/W2051673670
  • https://openalex.org/W2074805796
  • https://openalex.org/W2090854192
  • https://openalex.org/W2091062598
  • https://openalex.org/W2096451472
  • https://openalex.org/W2097883090
  • https://openalex.org/W2100034782
  • https://openalex.org/W2109362066
  • https://openalex.org/W2109678759
  • https://openalex.org/W2111562224
  • https://openalex.org/W2112032657
  • https://openalex.org/W2113224932
  • https://openalex.org/W2118978333
  • https://openalex.org/W2120457925
  • https://openalex.org/W2120999344
  • https://openalex.org/W2121866145
  • https://openalex.org/W2133711389
  • https://openalex.org/W2145793758
  • https://openalex.org/W2153233077
  • https://openalex.org/W2155653793
  • https://openalex.org/W2158864412
  • https://openalex.org/W2159681789
  • https://openalex.org/W2163279690
  • https://openalex.org/W2163732854
  • https://openalex.org/W2171188784
  • https://openalex.org/W2338571852
  • https://openalex.org/W2385483600
  • https://openalex.org/W2511872109
  • https://openalex.org/W2521200981
  • https://openalex.org/W2553580887
  • https://openalex.org/W2580763461
  • https://openalex.org/W2731935965
  • https://openalex.org/W2924030109
  • https://openalex.org/W2963302548
  • https://openalex.org/W3010612784
  • https://openalex.org/W3084008846
  • https://openalex.org/W3105203384
  • https://openalex.org/W3109254476
  • https://openalex.org/W3141989311
  • https://openalex.org/W3166162564
  • https://openalex.org/W4250004958
  • https://openalex.org/W4285719527