Machine learning models for classification and identification of significant attributes to detect type 2 diabetes
Creators
- 1. Noakhali Science and Technology University
- 2. Khulna University
- 3. University of Wollongong
- 4. Deakin University
- 5. Garvan Institute of Medical Research
- 6. University of Queensland
Description
Type 2 Diabetes (T2D) is a chronic disease characterized by abnormally high blood glucose levels due to insulin resistance and reduced pancreatic insulin production. The challenge of this work is to identify T2D-associated features that can distinguish T2D sub-types for prognosis and treatment purposes. We thus employed machine learning (ML) techniques to categorize T2D patients using data from the Pima Indian Diabetes Dataset from the Kaggle ML repository. After data preprocessing, several feature selection techniques were used to extract feature subsets, and a range of classification techniques were used to analyze these. We then compared the derived classification results to identify the best classifiers by considering accuracy, kappa statistics, area under the receiver operating characteristic (AUROC), sensitivity, specificity, and logarithmic loss (logloss). To evaluate the performance of different classifiers, we investigated their outcomes using the summary statistics with a resampling distribution. Therefore, Generalized Boosted Regression modeling showed the highest accuracy (90.91%), followed by kappa statistics (78.77%) and specificity (85.19%). In addition, Sparse Distance Weighted Discrimination, Generalized Additive Model using LOESS and Boosted Generalized Additive Models also gave the maximum sensitivity (100%), highest AUROC (95.26%) and lowest logarithmic loss (30.98%) respectively. Notably, the Generalized Additive Model using LOESS was the top-ranked algorithm according to non-parametric Friedman testing. Of the features identified by these machine learning models, glucose levels, body mass index, diabetes pedigree function, and age were consistently identified as the best and most frequently accurate outcome predictors. These results indicate the utility of ML methods in constructing improved prediction models for T2D and successfully identified outcome predictors for this Pima Indian population.The online version contains supplementary material available at 10.1007/s13755-021-00168-2.
Translated Descriptions
Translated Description (Arabic)
داء السكري من النوع 2 (T2D) هو مرض مزمن يتميز بارتفاع مستويات الجلوكوز في الدم بشكل غير طبيعي بسبب مقاومة الأنسولين وانخفاض إنتاج الأنسولين في البنكرياس. يتمثل التحدي في هذا العمل في تحديد الميزات المرتبطة بـ T2D التي يمكن أن تميز الأنواع الفرعية لـ T2D لأغراض التشخيص والعلاج. وبالتالي استخدمنا تقنيات التعلم الآلي (ML) لتصنيف مرضى T2D باستخدام بيانات من مجموعة بيانات PIMA الهندية لمرض السكري من مستودع Kaggle ML. بعد المعالجة المسبقة للبيانات، تم استخدام العديد من تقنيات اختيار الميزات لاستخراج مجموعات فرعية من الميزات، وتم استخدام مجموعة من تقنيات التصنيف لتحليلها. ثم قارنا نتائج التصنيف المشتقة لتحديد أفضل المصنفات من خلال النظر في الدقة وإحصاءات كابا والمنطقة تحت خاصية تشغيل جهاز الاستقبال (AUROC) والحساسية والنوعية والخسارة اللوغاريتمية (logloss). لتقييم أداء المصنفين المختلفين، قمنا بالتحقيق في نتائجهم باستخدام الإحصاءات الموجزة مع توزيع إعادة أخذ العينات. لذلك، أظهرت نمذجة الانحدار المعزز المعمم أعلى دقة (90.91 ٪)، تليها إحصاءات كابا (78.77 ٪) والخصوصية (85.19 ٪). بالإضافة إلى ذلك، أعطى التمييز الموزون للمسافات المتفرقة ونموذج الإضافة المعمم باستخدام نماذج الإضافة المعممة المعززة والنماذج المضافة المعممة المعززة أيضًا أقصى حساسية (100 ٪) وأعلى AUROC (95.26 ٪) وأدنى خسارة لوغاريتمية (30.98 ٪) على التوالي. والجدير بالذكر أن نموذج الإضافة المعمم باستخدام لويس كان الخوارزمية الأعلى تصنيفًا وفقًا لاختبار فريدمان غير البارامتري. من بين الميزات التي حددتها نماذج التعلم الآلي هذه، تم تحديد مستويات الجلوكوز ومؤشر كتلة الجسم ووظيفة نسب السكري والعمر باستمرار على أنها أفضل مؤشرات النتائج وأكثرها دقة. تشير هذه النتائج إلى فائدة طرق غسل الأموال في بناء نماذج تنبؤ محسنة لـ T2D وتحديد تنبؤات النتائج بنجاح لسكان بيما الهنود. تحتوي النسخة عبر الإنترنت على مواد تكميلية متاحة على 10.1007/s13755-021-00168-2.Translated Description (French)
Le diabète de type 2 (DT2) est une maladie chronique caractérisée par des taux de glycémie anormalement élevés en raison de la résistance à l'insuline et de la réduction de la production d'insuline pancréatique. Le défi de ce travail est d'identifier les caractéristiques associées au DT2 qui peuvent distinguer les sous-types de DT2 à des fins de pronostic et de traitement. Nous avons donc utilisé des techniques d'apprentissage automatique (ML) pour catégoriser les patients atteints de DT2 à l'aide des données de l'ensemble de données sur le diabète indien Pima du référentiel Kaggle ML. Après le prétraitement des données, plusieurs techniques de sélection de caractéristiques ont été utilisées pour extraire des sous-ensembles de caractéristiques, et une gamme de techniques de classification a été utilisée pour les analyser. Nous avons ensuite comparé les résultats de classification dérivés pour identifier les meilleurs classificateurs en tenant compte de l'exactitude, des statistiques kappa, de la zone sous la caractéristique de fonctionnement du récepteur (AUROC), de la sensibilité, de la spécificité et de la perte logarithmique (logloss). Pour évaluer la performance des différents classificateurs, nous avons étudié leurs résultats en utilisant les statistiques récapitulatives avec une distribution de ré-échantillonnage. Par conséquent, la modélisation de la régression boostée généralisée a montré la plus grande précision (90,91 %), suivie des statistiques kappa (78,77 %) et de la spécificité (85,19 %). En outre, la discrimination pondérée par la distance parcimonieuse, le modèle additif généralisé utilisant le LOESS et les modèles additifs généralisés renforcés ont également donné la sensibilité maximale (100 %), l'AUROC la plus élevée (95,26 %) et la perte logarithmique la plus faible (30,98 %) respectivement. Notamment, le modèle additif généralisé utilisant le LOESS était l'algorithme le mieux classé selon les tests de Friedman non paramétriques. Parmi les caractéristiques identifiées par ces modèles d'apprentissage automatique, les taux de glucose, l'indice de masse corporelle, la fonction généalogique du diabète et l'âge ont toujours été identifiés comme les meilleurs prédicteurs de résultats et les plus précis. Ces résultats indiquent l'utilité des méthodes de BC dans la construction de modèles de prédiction améliorés pour le DT2 et des prédicteurs de résultats identifiés avec succès pour cette population indienne Pima. La version en ligne contient du matériel supplémentaire disponible sur 10.1007/s13755-021-00168-2.Translated Description (Spanish)
La diabetes tipo 2 (DT2) es una enfermedad crónica caracterizada por niveles anormalmente altos de glucosa en sangre debido a la resistencia a la insulina y la producción reducida de insulina pancreática. El desafío de este trabajo es identificar las características asociadas a la DT2 que pueden distinguir los subtipos de DT2 para fines de pronóstico y tratamiento. Por lo tanto, empleamos técnicas de aprendizaje automático (ML) para categorizar a los pacientes con DT2 utilizando datos del Pima Indian Diabetes Dataset del repositorio Kaggle ML. Después del preprocesamiento de los datos, se utilizaron varias técnicas de selección de características para extraer subconjuntos de características, y se utilizó una gama de técnicas de clasificación para analizarlas. Luego comparamos los resultados de la clasificación derivada para identificar los mejores clasificadores considerando la precisión, las estadísticas kappa, el área bajo la característica operativa del receptor (AUROC), la sensibilidad, la especificidad y la pérdida logarítmica (logloss). Para evaluar el rendimiento de los diferentes clasificadores, investigamos sus resultados utilizando las estadísticas de resumen con una distribución de remuestreo. Por lo tanto, el modelado de regresión impulsada generalizada mostró la mayor precisión (90.91%), seguido de las estadísticas kappa (78.77%) y la especificidad (85.19%). Además, la discriminación ponderada por distancia escasa, el modelo aditivo generalizado con LOESS y los modelos aditivos generalizados potenciados también dieron la sensibilidad máxima (100%), el AUROC más alto (95,26%) y la pérdida logarítmica más baja (30,98%), respectivamente. En particular, el modelo aditivo generalizado que utiliza LOESS fue el algoritmo mejor clasificado según las pruebas no paramétricas de Friedman. De las características identificadas por estos modelos de aprendizaje automático, los niveles de glucosa, el índice de masa corporal, la función del pedigrí de la diabetes y la edad se identificaron consistentemente como los mejores y más precisos predictores de resultados. Estos resultados indican la utilidad de los métodos de ML en la construcción de modelos de predicción mejorados para la DT2 y los predictores de resultados identificados con éxito para esta población india Pima. La versión en línea contiene material complementario disponible en 10.1007/s13755-021-00168-2.Files
s13755-021-00168-2.pdf.pdf
Files
(2.4 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:67ba11a50e19767d1511508bfc79c498
|
2.4 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- نماذج التعلم الآلي لتصنيف وتحديد السمات الهامة للكشف عن مرض السكري من النوع 2
- Translated title (French)
- Modèles d'apprentissage automatique pour la classification et l'identification des attributs importants pour détecter le diabète de type 2
- Translated title (Spanish)
- Modelos de aprendizaje automático para la clasificación e identificación de atributos significativos para detectar la diabetes tipo 2
Identifiers
- Other
- https://openalex.org/W4210882272
- DOI
- 10.1007/s13755-021-00168-2
References
- https://openalex.org/W1523985187
- https://openalex.org/W1543134559
- https://openalex.org/W1708379973
- https://openalex.org/W1970809722
- https://openalex.org/W1981457167
- https://openalex.org/W1989022033
- https://openalex.org/W2009272467
- https://openalex.org/W2025266808
- https://openalex.org/W2026841079
- https://openalex.org/W2047602635
- https://openalex.org/W2066934020
- https://openalex.org/W2092285654
- https://openalex.org/W2110615995
- https://openalex.org/W2123380119
- https://openalex.org/W2135695572
- https://openalex.org/W2177299793
- https://openalex.org/W2190767980
- https://openalex.org/W2379581788
- https://openalex.org/W2512272949
- https://openalex.org/W2611447923
- https://openalex.org/W2612292012
- https://openalex.org/W2771827368
- https://openalex.org/W2775450699
- https://openalex.org/W2787703779
- https://openalex.org/W2798421489
- https://openalex.org/W2802899394
- https://openalex.org/W2807027008
- https://openalex.org/W2893812137
- https://openalex.org/W2893966636
- https://openalex.org/W2906510929
- https://openalex.org/W2946663007
- https://openalex.org/W2964077297
- https://openalex.org/W2964278775
- https://openalex.org/W2991751580
- https://openalex.org/W2995098893
- https://openalex.org/W2998364478
- https://openalex.org/W3000618626
- https://openalex.org/W3004204682
- https://openalex.org/W3004547963
- https://openalex.org/W3011045928
- https://openalex.org/W3011526435
- https://openalex.org/W3011720428
- https://openalex.org/W3017382074
- https://openalex.org/W3020776760
- https://openalex.org/W3028177359
- https://openalex.org/W3058564909
- https://openalex.org/W3090072574
- https://openalex.org/W3090711114
- https://openalex.org/W3091960929
- https://openalex.org/W3093724441
- https://openalex.org/W3104276013
- https://openalex.org/W3114283043
- https://openalex.org/W3126647681
- https://openalex.org/W3139349778
- https://openalex.org/W3152731513
- https://openalex.org/W3159358811
- https://openalex.org/W3159624482
- https://openalex.org/W3160768652
- https://openalex.org/W3164973537
- https://openalex.org/W3169745935
- https://openalex.org/W3172328600