Published January 1, 2023 | Version v1
Publication

Machine learning's performance in classifying postmenopausal osteoporosis Thai patients

  • 1. Naresuan University
  • 2. Silpakorn University
  • 3. Prince of Songkla University

Description

This work investigates the performance of different machine learning (ML) methods for classifying postmenopausal osteoporosis Thai patients. Our dataset contains 377 samples compiled retrospectively using the medical records of a Thai woman in the postmenopause stage from the obstetrics and gynecology clinic, Ramathibodi Hospital, Bangkok, Thailand. Missing data imputation, feature selection, and handling imbalanced techniques are independently applied as pre-processing approaches. The performance of different ML algorithms, including k-nearest neighbors (k-NN), neural network (NN), naïve Bayesian (NB), Bayesian network (BN), support vector machine (SVM), random forest (RF), and decision tree (DT), is compared between the pre-processed and original data. The results demonstrate that different ML algorithms combined with pre-processing techniques achieve varying results. In terms of accuracy, the three best-performing methods are the NN, NB, and RF models when a wrapper approach is used with an appropriate learner. In terms of specificity, the DT model achieves the best performance when the synthetic minority oversampling technique method is applied. When feature selection techniques are applied, the k-NN, BN, and SVM algorithms obtain the best sensitivity, whereas the NN shows the best area under the curve. Overall, in comparison with the original dataset, the pre-processed approaches improved model performance. Therefore, proper pre-processing techniques should be considered when developing ML classifiers to identify the best appropriate model.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يبحث هذا العمل في أداء طرق التعلم الآلي المختلفة (ML) لتصنيف مرضى هشاشة العظام التايلانديين بعد انقطاع الطمث. تحتوي مجموعة البيانات الخاصة بنا على 377 عينة تم تجميعها بأثر رجعي باستخدام السجلات الطبية لامرأة تايلاندية في مرحلة ما بعد انقطاع الطمث من عيادة التوليد وأمراض النساء، مستشفى راماثيبودي، بانكوك، تايلاند. يتم تطبيق احتساب البيانات المفقودة واختيار الميزات والتعامل مع التقنيات غير المتوازنة بشكل مستقل كنهج معالجة مسبقة. تتم مقارنة أداء خوارزميات ML المختلفة، بما في ذلك أقرب الجيران (k - NN)، والشبكة العصبية (NN)، وساذجة Bayesian (NB)، وشبكة Bayesian (BN)، وآلة ناقلات الدعم (SVM)، والغابة العشوائية (RF)، وشجرة القرار (DT)، بين البيانات المعالجة مسبقًا والأصلية. تُظهر النتائج أن خوارزميات التعلم الآلي المختلفة جنبًا إلى جنب مع تقنيات المعالجة المسبقة تحقق نتائج متفاوتة. من حيث الدقة، فإن الطرق الثلاث الأفضل أداءً هي نماذج NN و NB و RF عند استخدام نهج الغلاف مع متعلم مناسب. من حيث الخصوصية، يحقق نموذج DT أفضل أداء عند تطبيق طريقة تقنية أخذ العينات الزائدة للأقلية الاصطناعية. عند تطبيق تقنيات اختيار الميزات، تحصل خوارزميات k - NN و BN و SVM على أفضل حساسية، بينما تعرض NN أفضل منطقة تحت المنحنى. بشكل عام، وبالمقارنة مع مجموعة البيانات الأصلية، حسنت الأساليب التي تمت معالجتها مسبقًا أداء النموذج. لذلك، يجب مراعاة تقنيات المعالجة المسبقة المناسبة عند تطوير مصنفات غسل الأموال لتحديد أفضل نموذج مناسب.

Translated Description (French)

Ce travail étudie la performance de différentes méthodes d'apprentissage automatique (ML) pour classer les patients thaïlandais atteints d'ostéoporose post-ménopausique. Notre ensemble de données contient 377 échantillons compilés rétrospectivement à l'aide des dossiers médicaux d'une femme thaïlandaise en phase post-ménopausique de la clinique d'obstétrique et de gynécologie de l'hôpital Ramathibodi de Bangkok, en Thaïlande. L'imputation des données manquantes, la sélection des caractéristiques et la gestion des techniques déséquilibrées sont appliquées indépendamment en tant qu'approches de prétraitement. La performance de différents algorithmes ML, y compris les k plus proches voisins (k-NN), le réseau neuronal (NN), les données bayésiennes naïves (NB), le réseau bayésien (BN), la machine à vecteurs de support (SVM), la forêt aléatoire (RF) et l'arbre de décision (DT), est comparée entre les données prétraitées et originales. Les résultats démontrent que différents algorithmes de ML combinés à des techniques de prétraitement permettent d'obtenir des résultats variables. En termes de précision, les trois méthodes les plus performantes sont les modèles NN, NB et RF lorsqu'une approche enveloppante est utilisée avec un apprenant approprié. En termes de spécificité, le modèle DT atteint les meilleures performances lorsque la méthode de la technique de suréchantillonnage des minorités synthétiques est appliquée. Lorsque des techniques de sélection de caractéristiques sont appliquées, les algorithmes k-NN, BN et SVM obtiennent la meilleure sensibilité, tandis que le NN montre la meilleure zone sous la courbe. Dans l'ensemble, par rapport à l'ensemble de données original, les approches prétraitées ont amélioré les performances du modèle. Par conséquent, des techniques de prétraitement appropriées doivent être prises en compte lors de l'élaboration des classificateurs ML afin d'identifier le meilleur modèle approprié.

Translated Description (Spanish)

Este trabajo investiga el rendimiento de diferentes métodos de aprendizaje automático (ML) para clasificar a las pacientes tailandesas con osteoporosis posmenopáusica. Nuestro conjunto de datos contiene 377 muestras compiladas retrospectivamente utilizando los registros médicos de una mujer tailandesa en la etapa de posmenopausia de la clínica de obstetricia y ginecología, Hospital Ramathibodi, Bangkok, Tailandia. La imputación de datos faltantes, la selección de características y el manejo de técnicas desequilibradas se aplican de forma independiente como enfoques de preprocesamiento. El rendimiento de diferentes algoritmos de ML, incluidos k-vecinos más cercanos (k-NN), red neuronal (NN), bayesiana ingenua (NB), red bayesiana (BN), máquina de vectores de soporte (SVM), bosque aleatorio (RF) y árbol de decisión (DT), se compara entre los datos preprocesados y originales. Los resultados demuestran que diferentes algoritmos de ML combinados con técnicas de preprocesamiento logran resultados variables. En términos de precisión, los tres métodos de mejor rendimiento son los modelos NN, NB y RF cuando se utiliza un enfoque de envoltura con un alumno apropiado. En términos de especificidad, el modelo DT logra el mejor rendimiento cuando se aplica el método de la técnica de sobremuestreo de minorías sintéticas. Cuando se aplican técnicas de selección de características, los algoritmos k-NN, BN y SVM obtienen la mejor sensibilidad, mientras que el NN muestra la mejor área bajo la curva. En general, en comparación con el conjunto de datos original, los enfoques preprocesados mejoraron el rendimiento del modelo. Por lo tanto, se deben considerar las técnicas adecuadas de preprocesamiento al desarrollar clasificadores de ML para identificar el mejor modelo apropiado.

Additional details

Additional titles

Translated title (Arabic)
أداء التعلم الآلي في تصنيف مرضى هشاشة العظام التايلانديين بعد انقطاع الطمث
Translated title (French)
Performance de l'apprentissage automatique dans la classification des patients thaïlandais atteints d'ostéoporose post-ménopausique
Translated title (Spanish)
Rendimiento del aprendizaje automático en la clasificación de pacientes tailandesas con osteoporosis posmenopáusica

Identifiers

Other
https://openalex.org/W4367397381
DOI
10.1016/j.ibmed.2023.100099

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W1495061682
  • https://openalex.org/W1587764618
  • https://openalex.org/W1594031697
  • https://openalex.org/W1967697497
  • https://openalex.org/W1977185509
  • https://openalex.org/W2009740511
  • https://openalex.org/W2013597860
  • https://openalex.org/W2068613829
  • https://openalex.org/W2115744219
  • https://openalex.org/W2131463436
  • https://openalex.org/W2140190241
  • https://openalex.org/W2150798249
  • https://openalex.org/W2173289473
  • https://openalex.org/W2327395725
  • https://openalex.org/W2505716449
  • https://openalex.org/W2512307027
  • https://openalex.org/W2613177040
  • https://openalex.org/W2742902678
  • https://openalex.org/W2754683647
  • https://openalex.org/W2760915299
  • https://openalex.org/W2762836337
  • https://openalex.org/W2767154061
  • https://openalex.org/W2786123035
  • https://openalex.org/W2894773715
  • https://openalex.org/W2899909823
  • https://openalex.org/W2901496553
  • https://openalex.org/W2909282283
  • https://openalex.org/W2981121978
  • https://openalex.org/W2991232928
  • https://openalex.org/W3034250157
  • https://openalex.org/W3036032933
  • https://openalex.org/W3041568739
  • https://openalex.org/W3047101549
  • https://openalex.org/W3084378266
  • https://openalex.org/W3100946043
  • https://openalex.org/W3137097829
  • https://openalex.org/W3138067333
  • https://openalex.org/W3172818083
  • https://openalex.org/W3173070824
  • https://openalex.org/W3207207543
  • https://openalex.org/W3214439486
  • https://openalex.org/W4200310093
  • https://openalex.org/W4200429502
  • https://openalex.org/W4205222725
  • https://openalex.org/W4205448935
  • https://openalex.org/W4206465094
  • https://openalex.org/W4212778241
  • https://openalex.org/W4212809782
  • https://openalex.org/W4214774064
  • https://openalex.org/W4226137391
  • https://openalex.org/W4234299241
  • https://openalex.org/W4235003131
  • https://openalex.org/W4245075420
  • https://openalex.org/W4256568565
  • https://openalex.org/W4280553965
  • https://openalex.org/W4282921149
  • https://openalex.org/W4285719527
  • https://openalex.org/W4306773325