An explainable machine learning framework for lung cancer hospital length of stay prediction
Creators
- 1. Western Sydney University
- 2. Jordan University of Science and Technology
- 3. United Arab Emirates University
- 4. Eastern Michigan University
Description
Abstract This work introduces a predictive Length of Stay (LOS) framework for lung cancer patients using machine learning (ML) models. The framework proposed to deal with imbalanced datasets for classification-based approaches using electronic healthcare records (EHR). We have utilized supervised ML methods to predict lung cancer inpatients LOS during ICU hospitalization using the MIMIC-III dataset. Random Forest (RF) Model outperformed other models and achieved predicted results during the three framework phases. With clinical significance features selection, over-sampling methods (SMOTE and ADASYN) achieved the highest AUC results (98% with CI 95%: 95.3–100%, and 100% respectively). The combination of Over-sampling and under-sampling achieved the second-highest AUC results (98%, with CI 95%: 95.3–100%, and 97%, CI 95%: 93.7–100% SMOTE-Tomek, and SMOTE-ENN respectively). Under-sampling methods reported the least important AUC results (50%, with CI 95%: 40.2–59.8%) for both (ENN and Tomek- Links). Using ML explainable technique called SHAP, we explained the outcome of the predictive model (RF) with SMOTE class balancing technique to understand the most significant clinical features that contributed to predicting lung cancer LOS with the RF model. Our promising framework allows us to employ ML techniques in-hospital clinical information systems to predict lung cancer admissions into ICU.
Translated Descriptions
Translated Description (Arabic)
ملخص يقدم هذا العمل إطارًا تنبؤيًا لمدة الإقامة (LOS) لمرضى سرطان الرئة باستخدام نماذج التعلم الآلي (ML). الإطار المقترح للتعامل مع مجموعات البيانات غير المتوازنة للنهج القائمة على التصنيف باستخدام سجلات الرعاية الصحية الإلكترونية. لقد استخدمنا طرق التعلم الآلي الخاضعة للإشراف للتنبؤ بحالة مرضى سرطان الرئة الداخليين أثناء دخول وحدة العناية المركزة إلى المستشفى باستخدام مجموعة بيانات MIMIC - III. تفوق نموذج الغابات العشوائية على النماذج الأخرى وحقق النتائج المتوقعة خلال المراحل الإطارية الثلاث. مع اختيار ميزات الأهمية السريرية، حققت طرق أخذ العينات الزائدة (SMOTE و ADASYN) أعلى نتائج AUC (98 ٪ مع CI 95 ٪: 95.3-100 ٪، و 100 ٪ على التوالي). حقق الجمع بين الإفراط في أخذ العينات والنقص في أخذ العينات ثاني أعلى نتائج للجامعة الأمريكية بالقاهرة (98 ٪، مع CI 95 ٪: 95.3-100 ٪، و 97 ٪، CI 95 ٪: 93.7-100 ٪ SMOTE - TOMEK، و SMOTE - ENN على التوالي). أبلغت طرق أخذ العينات الأقل أهمية عن نتائج الجامعة الأمريكية بالقاهرة (50 ٪، مع CI 95 ٪: 40.2-59.8 ٪) لكل من (ENN و Tomek - Links). باستخدام تقنية ML القابلة للتفسير والتي تسمى SHAP، شرحنا نتيجة النموذج التنبئي (RF) باستخدام تقنية موازنة الفئة SMOTE لفهم أهم الميزات السريرية التي ساهمت في التنبؤ بسرطان الرئة LOS باستخدام نموذج RF. يسمح لنا إطارنا الواعد باستخدام تقنيات التعلم الآلي في أنظمة المعلومات السريرية في المستشفى للتنبؤ بإدخال سرطان الرئة إلى وحدة العناية المركزة.Translated Description (French)
Résumé Ce travail présente un cadre prédictif de la durée de séjour (LOS) pour les patients atteints de cancer du poumon à l'aide de modèles d'apprentissage automatique (ML). Le cadre proposait de traiter les ensembles de données déséquilibrés pour les approches basées sur la classification utilisant les dossiers de santé électroniques (DSE). Nous avons utilisé des méthodes de ML supervisées pour prédire les patients hospitalisés pour un cancer du poumon lors d'une hospitalisation en unité de soins intensifs À l'aide de l'ensemble de données MIMIC-III. Le modèle de forêt aléatoire (RF) a surpassé les autres modèles et a obtenu les résultats prévus au cours des trois phases du cadre. Avec la sélection des caractéristiques de signification clinique, les méthodes de suréchantillonnage (SMOTE et ADASYN) ont obtenu les résultats d'ASC les plus élevés (98 % avec un IC à 95 % : 95,3-100 % et 100 % respectivement). La combinaison du suréchantillonnage et du sous-échantillonnage a obtenu les deuxièmes résultats les plus élevés de l'ASC (98 %, avec un IC de 95 % : 95,3 à 100 % et 97 %, un IC de 95 % : 93,7 à 100 % SMOTE-Tomek et SMOTE-ENN respectivement). Les méthodes de sous-échantillonnage ont rapporté les résultats les moins importants de l'ASC (50 %, avec un IC de 95 % : 40,2-59,8 %) pour les deux (ENN et Tomek- Links). À l'aide de la technique explicable de ML appelée SHAP, nous avons expliqué le résultat du modèle prédictif (RF) avec la technique d'équilibrage des classes smote pour comprendre les caractéristiques cliniques les plus importantes qui ont contribué à la prédiction du cancer du poumon LOS avec le modèle RF. Notre cadre prometteur nous permet d'utiliser des techniques de ML dans les systèmes d'information clinique hospitaliers pour prédire les admissions de cancer du poumon en unité de soins intensifs.Translated Description (Spanish)
Resumen Este trabajo presenta un marco predictivo de la duración de la estadía (LOS) para pacientes con cáncer de pulmón que utilizan modelos de aprendizaje automático (ML). El marco propuesto para tratar los conjuntos de datos desequilibrados para los enfoques basados en la clasificación que utilizan registros electrónicos de atención médica (EHR). Hemos utilizado métodos de ML supervisados para predecir los de pacientes hospitalizados con cáncer de pulmón durante la hospitalización en la UCI utilizando el conjunto de datos MIMIC-III. El modelo de bosque aleatorio (RF) superó a otros modelos y logró los resultados previstos durante las tres fases del marco. Con la selección de características de importancia clínica, los métodos de sobremuestreo (Smote y ADASYN) lograron los resultados de AUC más altos (98% con IC 95%: 95,3-100% y 100%, respectivamente). La combinación de sobremuestreo y submuestreo logró los segundos resultados de AUC más altos (98%, con IC 95%: 95.3-100% y 97%, IC 95%: 93.7–100% SMOTE-Tomek y SMOTE-ENN, respectivamente). Los métodos de submuestreo informaron los resultados de AUC menos importantes (50%, con IC 95%: 40.2-59.8%) para ambos (enn y Tomek- Links). Usando una técnica explicable de ML llamada SHAP, explicamos el resultado del modelo predictivo (RF) con la técnica de equilibrio de clases de SMOTE para comprender las características clínicas más significativas que contribuyeron a predecir LOS de cáncer de pulmón con el modelo de RF. Nuestro marco prometedor nos permite emplear técnicas de ML en los sistemas de información clínica hospitalaria para predecir los ingresos por cáncer de pulmón en la UCI.Files
s41598-021-04608-7.pdf.pdf
Files
(2.0 MB)
Name | Size | Download all |
---|---|---|
md5:b9effc274c44dc795a416d9cd86f8205
|
2.0 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- إطار تعلم آلي قابل للتفسير للتنبؤ بمدة الإقامة في مستشفى سرطان الرئة
- Translated title (French)
- Un cadre d'apprentissage automatique explicable pour la prédiction de la durée du séjour à l'hôpital pour le cancer du poumon
- Translated title (Spanish)
- Un marco de aprendizaje automático explicable para la predicción de la duración de la estancia hospitalaria del cáncer de pulmón
Identifiers
- Other
- https://openalex.org/W4205344436
- DOI
- 10.1038/s41598-021-04608-7
References
- https://openalex.org/W1973144845
- https://openalex.org/W2033925475
- https://openalex.org/W2036924892
- https://openalex.org/W2052526953
- https://openalex.org/W2069466101
- https://openalex.org/W2075990105
- https://openalex.org/W2083634842
- https://openalex.org/W2091678224
- https://openalex.org/W2125674401
- https://openalex.org/W2153971784
- https://openalex.org/W2216432046
- https://openalex.org/W2396881363
- https://openalex.org/W2410862389
- https://openalex.org/W2474004041
- https://openalex.org/W2601482228
- https://openalex.org/W2625625371
- https://openalex.org/W2752349109
- https://openalex.org/W2790454971
- https://openalex.org/W2886586773
- https://openalex.org/W2888487581
- https://openalex.org/W2955978068
- https://openalex.org/W2967726007
- https://openalex.org/W2990621876
- https://openalex.org/W2996713777
- https://openalex.org/W3013359893
- https://openalex.org/W3034735315
- https://openalex.org/W3048563484
- https://openalex.org/W3082259923
- https://openalex.org/W3087697342
- https://openalex.org/W3089262699
- https://openalex.org/W3091110691
- https://openalex.org/W3092814891
- https://openalex.org/W3101973032
- https://openalex.org/W3118577024
- https://openalex.org/W3132736587
- https://openalex.org/W3136622725
- https://openalex.org/W3160639137
- https://openalex.org/W4361865037
- https://openalex.org/W575847903