Published January 19, 2024 | Version v1
Publication Open

Identifying key soil characteristics for Francisella tularensis classification with optimized Machine learning models

  • 1. University of Engineering and Technology Lahore
  • 2. University of Veterinary and Animal Sciences

Description

Abstract Francisella tularensis (Ft) poses a significant threat to both animal and human populations, given its potential as a bioweapon. Current research on the classification of this pathogen and its relationship with soil physical–chemical characteristics often relies on traditional statistical methods. In this study, we leverage advanced machine learning models to enhance the prediction of epidemiological models for soil-based microbes. Our model employs a two-stage feature ranking process to identify crucial soil attributes and hyperparameter optimization for accurate pathogen classification using a unique soil attribute dataset. Optimization involves various classification algorithms, including Support Vector Machines (SVM), Ensemble Models (EM), and Neural Networks (NN), utilizing Bayesian and Random search techniques. Results indicate the significance of soil features such as clay, nitrogen, soluble salts, silt, organic matter, and zinc , while identifying the least significant ones as potassium, calcium, copper, sodium, iron, and phosphorus. Bayesian optimization yields the best results, achieving an accuracy of 86.5% for SVM, 81.8% for EM, and 83.8% for NN. Notably, SVM emerges as the top-performing classifier, with an accuracy of 86.5% for both Bayesian and Random Search optimizations. The insights gained from employing machine learning techniques enhance our understanding of the environmental factors influencing Ft's persistence in soil. This, in turn, reduces the risk of false classifications, contributing to better pandemic control and mitigating socio-economic impacts on communities.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يشكل الملخص Francisella tularensis (FT) تهديدًا كبيرًا لكل من الحيوانات والبشر، نظرًا لإمكاناته كسلاح حيوي. غالبًا ما تعتمد الأبحاث الحالية حول تصنيف هذا الممرض وعلاقته بالخصائص الفيزيائية والكيميائية للتربة على الأساليب الإحصائية التقليدية. في هذه الدراسة، نستفيد من نماذج التعلم الآلي المتقدمة لتعزيز التنبؤ بالنماذج الوبائية للميكروبات القائمة على التربة. يستخدم نموذجنا عملية تصنيف الميزات على مرحلتين لتحديد سمات التربة الحاسمة وتحسين المعلمات المفرطة لتصنيف مسببات الأمراض بدقة باستخدام مجموعة بيانات سمات التربة الفريدة. يتضمن التحسين خوارزميات تصنيف مختلفة، بما في ذلك آلات ناقلات الدعم (SVM)، ونماذج المجموعة (EM)، والشبكات العصبية (NN)، باستخدام تقنيات البحث البايزية والعشوائية. تشير النتائج إلى أهمية ميزات التربة مثل الطين والنيتروجين والأملاح القابلة للذوبان والطمي والمواد العضوية والزنك ، مع تحديد أقلها أهمية مثل البوتاسيوم والكالسيوم والنحاس والصوديوم والحديد والفوسفور. يحقق التحسين البايزي أفضل النتائج، حيث يحقق دقة تبلغ 86.5 ٪ لـ SVM، و 81.8 ٪ لـ EM، و 83.8 ٪ لـ NN. والجدير بالذكر أن SVM تبرز كمصنف أعلى أداء، بدقة 86.5 ٪ لكل من تحسينات Bayesian و Random Search. تعزز الرؤى المكتسبة من استخدام تقنيات التعلم الآلي فهمنا للعوامل البيئية التي تؤثر على استمرار Ft في التربة. وهذا بدوره يقلل من خطر التصنيفات الخاطئة، مما يساهم في تحسين السيطرة على الوباء والتخفيف من الآثار الاجتماعية والاقتصادية على المجتمعات.

Translated Description (French)

Résumé Francisella tularensis (Ft) représente une menace importante pour les populations animales et humaines, compte tenu de son potentiel en tant qu'arme biologique. Les recherches actuelles sur la classification de cet agent pathogène et sa relation avec les caractéristiques physico-chimiques du sol s'appuient souvent sur des méthodes statistiques traditionnelles. Dans cette étude, nous tirons parti des modèles avancés d'apprentissage automatique pour améliorer la prédiction des modèles épidémiologiques pour les microbes du sol. Notre modèle utilise un processus de classement des caractéristiques en deux étapes pour identifier les attributs cruciaux du sol et l'optimisation des hyperparamètres pour une classification précise des agents pathogènes à l'aide d'un ensemble de données unique sur les attributs du sol. L'optimisation implique divers algorithmes de classification, y compris les machines à vecteurs de support (SVM), les modèles d'ensemble (EM) et les réseaux neuronaux (NN), en utilisant des techniques de recherche bayésienne et aléatoire. Les résultats indiquent l'importance des caractéristiques du sol telles que l'argile, l'azote, les sels solubles, le limon, la matière organique et le zinc , tout en identifiant les caractéristiques les moins significatives telles que le potassium, le calcium, le cuivre, le sodium, le fer et le phosphore. L'optimisation bayésienne donne les meilleurs résultats, atteignant une précision de 86,5% pour SVM, 81,8% pour EM et 83,8% pour NN. Notamment, SVM émerge comme le classificateur le plus performant, avec une précision de 86,5% pour les optimisations bayésiennes et de recherche aléatoire. Les connaissances acquises en utilisant des techniques d'apprentissage automatique améliorent notre compréhension des facteurs environnementaux influençant la persistance de Ft dans le sol. Ceci, à son tour, réduit le risque de fausses classifications, contribuant à un meilleur contrôle de la pandémie et à l'atténuation des impacts socio-économiques sur les communautés.

Translated Description (Spanish)

Resumen Francisella tularensis (Ft) representa una amenaza significativa para las poblaciones animales y humanas, dado su potencial como arma biológica. La investigación actual sobre la clasificación de este patógeno y su relación con las características físico-químicas del suelo a menudo se basa en métodos estadísticos tradicionales. En este estudio, aprovechamos modelos avanzados de aprendizaje automático para mejorar la predicción de modelos epidemiológicos para microbios basados en el suelo. Nuestro modelo emplea un proceso de clasificación de características de dos etapas para identificar atributos cruciales del suelo y la optimización de hiperparámetros para una clasificación precisa de patógenos utilizando un conjunto de datos único de atributos del suelo. La optimización implica varios algoritmos de clasificación, incluidas las máquinas de vectores de soporte (SVM), los modelos de conjunto (EM) y las redes neuronales (NN), que utilizan técnicas de búsqueda bayesianas y aleatorias. Los resultados indican la importancia de las características del suelo como la arcilla, el nitrógeno, las sales solubles, el limo, la materia orgánica y el zinc , al tiempo que identifican las menos significativas como el potasio, el calcio, el cobre, el sodio, el hierro y el fósforo. La optimización bayesiana produce los mejores resultados, logrando una precisión del 86,5% para SVM, 81,8% para EM y 83,8% para NN. En particular, SVM emerge como el clasificador de mayor rendimiento, con una precisión del 86,5% para las optimizaciones de búsqueda bayesiana y aleatoria. Los conocimientos obtenidos al emplear técnicas de aprendizaje automático mejoran nuestra comprensión de los factores ambientales que influyen en la persistencia de Ft en el suelo. Esto, a su vez, reduce el riesgo de clasificaciones falsas, contribuyendo a un mejor control de la pandemia y mitigando los impactos socioeconómicos en las comunidades.

Files

s41598-024-51502-z.pdf.pdf

Files (2.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:a1697c9d88a3da2e74eda6167137e911
2.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تحديد خصائص التربة الرئيسية لتصنيف فرانسيسيلا تولارينسيس مع نماذج التعلم الآلي المثلى
Translated title (French)
Identification des principales caractéristiques du sol pour la classification de Francisella tularensis avec des modèles d'apprentissage automatique optimisés
Translated title (Spanish)
Identificación de características clave del suelo para la clasificación de Francisella tularensis con modelos de aprendizaje automático optimizados

Identifiers

Other
https://openalex.org/W4391023358
DOI
10.1038/s41598-024-51502-z

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1606446109
  • https://openalex.org/W1972981214
  • https://openalex.org/W1980680725
  • https://openalex.org/W1990655685
  • https://openalex.org/W1995433975
  • https://openalex.org/W1996968332
  • https://openalex.org/W2002582640
  • https://openalex.org/W2009447175
  • https://openalex.org/W2033295369
  • https://openalex.org/W2035594105
  • https://openalex.org/W2048179143
  • https://openalex.org/W2058497486
  • https://openalex.org/W2063888623
  • https://openalex.org/W2079674117
  • https://openalex.org/W2083663094
  • https://openalex.org/W2097608797
  • https://openalex.org/W2098890429
  • https://openalex.org/W2105633448
  • https://openalex.org/W2110931086
  • https://openalex.org/W2127602818
  • https://openalex.org/W2143468829
  • https://openalex.org/W2154382151
  • https://openalex.org/W2154736508
  • https://openalex.org/W2163428609
  • https://openalex.org/W2167960824
  • https://openalex.org/W2169171650
  • https://openalex.org/W2172000360
  • https://openalex.org/W2186294614
  • https://openalex.org/W2326849546
  • https://openalex.org/W2501548226
  • https://openalex.org/W2582508402
  • https://openalex.org/W2594884086
  • https://openalex.org/W2727623211
  • https://openalex.org/W2929240300
  • https://openalex.org/W2963905884
  • https://openalex.org/W2979771531
  • https://openalex.org/W2998895644
  • https://openalex.org/W3006436700
  • https://openalex.org/W3024506939
  • https://openalex.org/W3033507086
  • https://openalex.org/W3041832132
  • https://openalex.org/W3101080475
  • https://openalex.org/W3110780733
  • https://openalex.org/W3119213388
  • https://openalex.org/W3133560601
  • https://openalex.org/W3155270026
  • https://openalex.org/W3181660183
  • https://openalex.org/W4213037569
  • https://openalex.org/W4249247926
  • https://openalex.org/W4292707465
  • https://openalex.org/W4313478111
  • https://openalex.org/W4313478500
  • https://openalex.org/W4322578533
  • https://openalex.org/W4382797888