Two phase feature-ranking for new soil dataset for Coxiella burnetii persistence and classification using machine learning models
Creators
- 1. University of Engineering and Technology Lahore
- 2. University of Veterinary and Animal Sciences
Description
Abstract Coxiella burnetii (Cb) is a hardy, stealth bacterial pathogen lethal for humans and animals. Its tremendous resistance to the environment, ease of propagation, and incredibly low infectious dosage make it an attractive organism for biowarfare. Current research on the classification of Coxiella and features influencing its presence in the soil is generally confined to statistical techniques. Machine learning other than traditional approaches can help us better predict epidemiological modeling for this soil-based pathogen of public significance. We developed a two-phase feature-ranking technique for the pathogen on a new soil feature dataset. The feature ranking applies methods such as ReliefF (RLF), OneR (ONR), and correlation (CR) for the first phase and a combination of techniques utilizing weighted scores to determine the final soil attribute ranks in the second phase. Different classification methods such as Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Logistic Regression (LR), and Multi-Layer Perceptron (MLP) have been utilized for the classification of soil attribute dataset for Coxiella positive and negative soils. The feature-ranking methods established that potassium, chromium, cadmium, nitrogen, organic matter, and soluble salts are the most significant attributes. At the same time, manganese, clay, phosphorous, copper, and lead are the least contributing soil features for the prevalence of the bacteria. However, potassium is the most influential feature, and manganese is the least significant soil feature. The attribute ranking using RLF generates the most promising results among the ranking methods by generating an accuracy of 80.85% for MLP, 79.79% for LR, and 79.8% for LDA. Overall, SVM and MLP are the best-performing classifiers, where SVM yields an accuracy of 82.98% and 81.91% for attribute ranking by CR and RLF; and MLP generates an accuracy of 76.60% for ONR. Thus, machine models can help us better understand the environment, assisting in the prevalence of bacteria and decreasing the chances of false classification. Subsequently, this can assist in controlling epidemics and alleviating the devastating effect on the socio-economics of society.
Translated Descriptions
Translated Description (Arabic)
خلاصة كوكسييلا بورنيتي (Cb) هي مسببات الأمراض البكتيرية الخفية والمميتة للإنسان والحيوان. إن مقاومتها الهائلة للبيئة، وسهولة انتشارها، والجرعة المعدية المنخفضة بشكل لا يصدق تجعلها كائنًا جذابًا للحرب البيولوجية. تقتصر الأبحاث الحالية حول تصنيف كوكسييلا والميزات التي تؤثر على وجودها في التربة بشكل عام على التقنيات الإحصائية. يمكن أن يساعدنا التعلم الآلي بخلاف الأساليب التقليدية على التنبؤ بشكل أفضل بالنمذجة الوبائية لهذا الممرض القائم على التربة ذي الأهمية العامة. لقد طورنا تقنية تصنيف الميزات على مرحلتين للعامل الممرض على مجموعة بيانات ميزات التربة الجديدة. يطبق تصنيف الميزة طرقًا مثل ReliefF (RLF) و OneR (ONR) والارتباط (CR) للمرحلة الأولى ومجموعة من التقنيات التي تستخدم الدرجات المرجحة لتحديد الرتب النهائية لسمات التربة في المرحلة الثانية. تم استخدام طرق تصنيف مختلفة مثل آلة ناقلات الدعم (SVM)، والتحليل التمييزي الخطي (LDA)، والانحدار اللوجستي (LR)، و Perceptron متعدد الطبقات (MLP) لتصنيف مجموعة بيانات سمات التربة لتربة كوكسييلا الإيجابية والسلبية. أثبتت طرق تصنيف الميزات أن البوتاسيوم والكروم والكادميوم والنيتروجين والمواد العضوية والأملاح القابلة للذوبان هي أهم السمات. وفي الوقت نفسه، فإن المنغنيز والطين والفوسفور والنحاس والرصاص هي أقل سمات التربة مساهمة في انتشار البكتيريا. ومع ذلك، فإن البوتاسيوم هو الميزة الأكثر تأثيرًا، والمنغنيز هو ميزة التربة الأقل أهمية. يولد ترتيب السمات باستخدام RLF النتائج الواعدة بين طرق الترتيب من خلال توليد دقة 80.85 ٪ لـ MLP، و 79.79 ٪ لـ LR، و 79.8 ٪ لـ LDA. بشكل عام، تعد SVM و MLP أفضل المصنفات أداءً، حيث تنتج SVM دقة بنسبة 82.98 ٪ و 81.91 ٪ لتصنيف السمات بواسطة CR و RLF ؛ و MLP يولد دقة 76.60 ٪ لـ ONR. وبالتالي، يمكن أن تساعدنا النماذج الآلية على فهم البيئة بشكل أفضل، والمساعدة في انتشار البكتيريا وتقليل فرص التصنيف الخاطئ. وبالتالي، يمكن أن يساعد ذلك في السيطرة على الأوبئة والتخفيف من التأثير المدمر على الاقتصاد الاجتماعي للمجتمع.Translated Description (French)
Résumé Coxiella burnetii (Cb) est un agent pathogène bactérien rustique et furtif mortel pour les humains et les animaux. Sa grande résistance à l'environnement, sa facilité de propagation et son dosage infectieux incroyablement faible en font un organisme attrayant pour la guerre biologique. Les recherches actuelles sur la classification de Coxiella et les caractéristiques influençant sa présence dans le sol se limitent généralement aux techniques statistiques. L'apprentissage automatique autre que les approches traditionnelles peut nous aider à mieux prédire la modélisation épidémiologique de cet agent pathogène du sol d'importance publique. Nous avons développé une technique de classement des caractéristiques en deux phases pour l'agent pathogène sur un nouvel ensemble de données sur les caractéristiques du sol. Le classement des caractéristiques applique des méthodes telles que ReliefF (RLF), OneR (ONR) et corrélation (CR) pour la première phase et une combinaison de techniques utilisant des scores pondérés pour déterminer le classement final des attributs du sol dans la deuxième phase. Différentes méthodes de classification telles que la machine à vecteurs de support (SVM), l'analyse discriminante linéaire (LDA), la régression logistique (LR) et le perceptron multicouche (MLP) ont été utilisées pour la classification de l'ensemble de données d'attributs du sol pour les sols positifs et négatifs de Coxiella. Les méthodes de classement des caractéristiques ont établi que le potassium, le chrome, le cadmium, l'azote, la matière organique et les sels solubles sont les attributs les plus importants. Dans le même temps, le manganèse, l'argile, le phosphore, le cuivre et le plomb sont les caractéristiques du sol qui contribuent le moins à la prévalence des bactéries. Cependant, le potassium est la caractéristique la plus influente, et le manganèse est la caractéristique du sol la moins importante. Le classement des attributs à l'aide du RLF génère les résultats les plus prometteurs parmi les méthodes de classement en générant une précision de 80,85 % pour le MLP, 79,79 % pour le LR et 79,8 % pour le LDA. Dans l'ensemble, SVM et MLP sont les classificateurs les plus performants, où SVM donne une précision de 82,98 % et 81,91 % pour le classement des attributs par CR et RLF ; et MLP génère une précision de 76,60 % pour ONR. Ainsi, les modèles de machines peuvent nous aider à mieux comprendre l'environnement, en aidant à la prévalence des bactéries et en diminuant les risques de fausse classification. Par la suite, cela peut aider à contrôler les épidémies et à atténuer l'effet dévastateur sur la socio-économie de la société.Translated Description (Spanish)
Resumen La Coxiella burnetii (Cb) es un patógeno bacteriano resistente y sigiloso letal para humanos y animales. Su tremenda resistencia al medio ambiente, su facilidad de propagación y su dosis infecciosa increíblemente baja lo convierten en un organismo atractivo para la guerra biológica. La investigación actual sobre la clasificación de Coxiella y las características que influyen en su presencia en el suelo se limita generalmente a técnicas estadísticas. El aprendizaje automático distinto de los enfoques tradicionales puede ayudarnos a predecir mejor el modelado epidemiológico para este patógeno basado en el suelo de importancia pública. Desarrollamos una técnica de clasificación de características de dos fases para el patógeno en un nuevo conjunto de datos de características del suelo. La clasificación de características aplica métodos como ReliefF (RLF), OneR (ONR) y correlación (CR) para la primera fase y una combinación de técnicas que utilizan puntajes ponderados para determinar las clasificaciones finales de atributos del suelo en la segunda fase. Se han utilizado diferentes métodos de clasificación como Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Logistic Regression (LR) y Multi-Layer Perceptron (MLP) para la clasificación del conjunto de datos de atributos del suelo para suelos positivos y negativos de Coxiella. Los métodos de clasificación de características establecieron que el potasio, el cromo, el cadmio, el nitrógeno, la materia orgánica y las sales solubles son los atributos más significativos. Al mismo tiempo, el manganeso, la arcilla, el fósforo, el cobre y el plomo son las características del suelo que menos contribuyen a la prevalencia de la bacteria. Sin embargo, el potasio es la característica más influyente, y el manganeso es la característica menos significativa del suelo. La clasificación de atributos utilizando RLF genera los resultados más prometedores entre los métodos de clasificación al generar una precisión del 80.85% para MLP, 79.79% para LR y 79.8% para LDA. En general, SVM y MLP son los clasificadores de mejor rendimiento, donde SVM produce una precisión de 82.98% y 81.91% para la clasificación de atributos por CR y RLF; y MLP genera una precisión de 76.60% para ONR. Por lo tanto, los modelos de máquinas pueden ayudarnos a comprender mejor el medio ambiente, ayudando a la prevalencia de bacterias y disminuyendo las posibilidades de clasificación falsa. Posteriormente, esto puede ayudar a controlar las epidemias y aliviar el efecto devastador en la socioeconómica de la sociedad.Files
s41598-022-26956-8.pdf.pdf
Files
(1.7 MB)
Name | Size | Download all |
---|---|---|
md5:f9c8175164e28bb1038f5984cbf5bf52
|
1.7 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تصنيف ميزة مرحلتين لمجموعة بيانات التربة الجديدة لاستمرار كوكسييلا بورنيتي وتصنيفها باستخدام نماذج التعلم الآلي
- Translated title (French)
- Classement des caractéristiques en deux phases pour un nouvel ensemble de données sur le sol pour la persistance et la classification de Coxiella burnetii à l'aide de modèles d'apprentissage automatique
- Translated title (Spanish)
- Clasificación de características en dos fases para el nuevo conjunto de datos del suelo para la persistencia y clasificación de Coxiella burnetii utilizando modelos de aprendizaje automático
Identifiers
- Other
- https://openalex.org/W4313478111
- DOI
- 10.1038/s41598-022-26956-8
References
- https://openalex.org/W1500895378
- https://openalex.org/W1521067118
- https://openalex.org/W1604548007
- https://openalex.org/W184943800
- https://openalex.org/W1940362789
- https://openalex.org/W1964339096
- https://openalex.org/W1966462823
- https://openalex.org/W1972981214
- https://openalex.org/W1980680725
- https://openalex.org/W1988164942
- https://openalex.org/W1995433975
- https://openalex.org/W2002582640
- https://openalex.org/W2029101395
- https://openalex.org/W2033295369
- https://openalex.org/W2035594105
- https://openalex.org/W2040675415
- https://openalex.org/W2063888623
- https://openalex.org/W2073292063
- https://openalex.org/W2074304541
- https://openalex.org/W2079674117
- https://openalex.org/W2083663094
- https://openalex.org/W2089972796
- https://openalex.org/W2097608797
- https://openalex.org/W2100076651
- https://openalex.org/W2109924898
- https://openalex.org/W2110931086
- https://openalex.org/W2122379760
- https://openalex.org/W2122425836
- https://openalex.org/W2127602818
- https://openalex.org/W2131962962
- https://openalex.org/W2134903749
- https://openalex.org/W2143468829
- https://openalex.org/W2149126411
- https://openalex.org/W2154382151
- https://openalex.org/W2154736508
- https://openalex.org/W2155523937
- https://openalex.org/W2161741939
- https://openalex.org/W2163428609
- https://openalex.org/W2167960824
- https://openalex.org/W2169171650
- https://openalex.org/W2171925394
- https://openalex.org/W2172000360
- https://openalex.org/W2186294614
- https://openalex.org/W2330282445
- https://openalex.org/W2462700055
- https://openalex.org/W2501548226
- https://openalex.org/W2556564468
- https://openalex.org/W2557653014
- https://openalex.org/W2594884086
- https://openalex.org/W2738542080
- https://openalex.org/W2768077173
- https://openalex.org/W2805142011
- https://openalex.org/W2885770726
- https://openalex.org/W2929240300
- https://openalex.org/W2963905884
- https://openalex.org/W2979771531
- https://openalex.org/W3033507086
- https://openalex.org/W3133560601
- https://openalex.org/W4249247926