An 8-gene machine learning model improves clinical prediction of severe dengue progression
Creators
-
Yiran E. Liu1
-
Sirle Saul1
-
A. Koneti Rao1
-
Makeda Robinson1
-
Olga L. Rojas2
-
A. Sanz2
-
Michelle Verghese1
- D. Solis1
- Mamdouh Sibai1
- Chun Huang1
-
Malaya K. Sahoo1
-
Rosa Margarita Gélvez
-
Nathalia Bueno
-
María Isabel Estupiñán Cárdenas
- Luís Ángel Villar Centeno
-
Elsa Marina Rojas Garrido
-
Fernando Rosso2
-
Michèle Donato1
-
Benjamin A. Pinsky1
-
Shirit Einav1
-
Purvesh Khatri1
- 1. Stanford University
- 2. Fundación Valle del Lili
Description
Each year 3-6 million people develop life-threatening severe dengue (SD). Clinical warning signs for SD manifest late in the disease course and are nonspecific, leading to missed cases and excess hospital burden. Better SD prognostics are urgently needed.We integrated 11 public datasets profiling the blood transcriptome of 365 dengue patients of all ages and from seven countries, encompassing biological, clinical, and technical heterogeneity. We performed an iterative multi-cohort analysis to identify differentially expressed genes (DEGs) between non-severe patients and SD progressors. Using only these DEGs, we trained an XGBoost machine learning model on public data to predict progression to SD. All model parameters were "locked" prior to validation in an independent, prospectively enrolled cohort of 377 dengue patients in Colombia. We measured expression of the DEGs in whole blood samples collected upon presentation, prior to SD progression. We then compared the accuracy of the locked XGBoost model and clinical warning signs in predicting SD.We identified eight SD-associated DEGs in the public datasets and built an 8-gene XGBoost model that accurately predicted SD progression in the independent validation cohort with 86.4% (95% CI 68.2-100) sensitivity and 79.7% (95% CI 75.5-83.9) specificity. Given the 5.8% proportion of SD cases in this cohort, the 8-gene model had a positive and negative predictive value (PPV and NPV) of 20.9% (95% CI 16.7-25.6) and 99.0% (95% CI 97.7-100.0), respectively. Compared to clinical warning signs at presentation, which had 77.3% (95% CI 58.3-94.1) sensitivity and 39.7% (95% CI 34.7-44.9) specificity, the 8-gene model led to an 80% reduction in the number needed to predict (NNP) from 25.4 to 5.0. Importantly, the 8-gene model accurately predicted subsequent SD in the first three days post-fever onset and up to three days prior to SD progression.The 8-gene XGBoost model, trained on heterogeneous public datasets, accurately predicted progression to SD in a large, independent, prospective cohort, including during the early febrile stage when SD prediction remains clinically difficult. The model has potential to be translated to a point-of-care prognostic assay to reduce dengue morbidity and mortality without overwhelming limited healthcare resources.
Translated Descriptions
Translated Description (Arabic)
يصاب كل عام 3-6 ملايين شخص بحمى الضنك الشديدة المهددة للحياة (SD). تظهر علامات التحذير السريرية لداء التوحد في وقت متأخر من مسار المرض وهي غير محددة، مما يؤدي إلى حالات فائتة وعبء زائد في المستشفى. هناك حاجة ماسة إلى تنبؤات أفضل للـ SD. قمنا بدمج 11 مجموعة بيانات عامة تنميط نص الدم لـ 365 مريضًا بحمى الضنك من جميع الأعمار ومن سبعة بلدان، بما في ذلك عدم التجانس البيولوجي والسريري والتقني. أجرينا تحليلاً تكراريًا متعدد الأفرع لتحديد الجينات المعبر عنها بشكل مختلف (DEGs) بين المرضى غير الحادين والمتقدمين في SD. باستخدام DEGs هذه فقط، قمنا بتدريب نموذج التعلم الآلي XGBoost على البيانات العامة للتنبؤ بالتقدم إلى SD. تم "قفل" جميع معلمات النموذج قبل التحقق من صحتها في مجموعة مستقلة مسجلة مستقبلًا تضم 377 مريضًا بحمى الضنك في كولومبيا. قمنا بقياس التعبير عن DEGs في عينات الدم الكاملة التي تم جمعها عند التقديم، قبل تقدم SD. ثم قارنا دقة نموذج XGBoost المقفل وعلامات التحذير السريرية في التنبؤ بـ SD. حددنا ثمانية DEGs مرتبطة بـ SD في مجموعات البيانات العامة وقمنا ببناء نموذج XGBoost مكون من 8 جينات يتنبأ بدقة بتقدم SD في مجموعة التحقق المستقلة بحساسية 86.4 ٪ (95 ٪ CI 68.2-100) وخصوصية 79.7 ٪ (95 ٪ CI 75.5-83.9). بالنظر إلى نسبة 5.8 ٪ من حالات الانحراف المعياري في هذه المجموعة، كان لنموذج الجينات الثمانية قيمة تنبؤية إيجابية وسلبية (PPV و NPV) بنسبة 20.9 ٪ (95 ٪ CI 16.7-25.6) و 99.0 ٪ (95 ٪ CI 97.7-100.0)، على التوالي. بالمقارنة مع علامات التحذير السريرية عند العرض، والتي كانت حساسية 77.3 ٪ (95 ٪ CI 58.3-94.1) وخصوصية 39.7 ٪ (95 ٪ CI 34.7-44.9)، أدى نموذج الجينات الثمانية إلى انخفاض بنسبة 80 ٪ في العدد اللازم للتنبؤ (NNP) من 25.4 إلى 5.0. الأهم من ذلك، أن النموذج المكون من 8 جينات تنبأ بدقة بالتطور المعياري اللاحق في الأيام الثلاثة الأولى بعد ظهور الحمى وحتى ثلاثة أيام قبل تقدم التطور المعياري. يتنبأ نموذج XGBoost المكون من 8 جينات، المدرّب على مجموعات البيانات العامة غير المتجانسة، بدقة بالتقدم إلى التطور المعياري في مجموعة كبيرة ومستقلة ومحتملة، بما في ذلك خلال مرحلة الحمى المبكرة عندما يظل التنبؤ بالتطور المعياري صعبًا سريريًا. يمكن ترجمة النموذج إلى اختبار تنبؤي في نقطة الرعاية للحد من اعتلال ووفيات حمى الضنك دون موارد رعاية صحية محدودة للغاية.Translated Description (French)
Chaque année, 3 à 6 millions de personnes développent une dengue sévère (DS) potentiellement mortelle. Les signes cliniques avant-coureurs du SD se manifestent tardivement dans l'évolution de la maladie et ne sont pas spécifiques, entraînant des cas manqués et un fardeau hospitalier excessif. De meilleurs pronostics SD sont nécessaires de toute urgence. Nous avons intégré 11 ensembles de données publics décrivant le transcriptome sanguin de 365 patients atteints de dengue de tous âges et de sept pays, englobant l'hétérogénéité biologique, clinique et technique. Nous avons effectué une analyse itérative multicohorte pour identifier les gènes exprimés de manière différentielle (DEG) entre les patients non sévères et les progresseurs de SD. En utilisant uniquement ces DEG, nous avons formé un modèle d'apprentissage automatique XGBoost sur les données publiques pour prédire la progression vers le SD. Tous les paramètres du modèle ont été « verrouillés » avant la validation dans une cohorte indépendante, prospectivement recrutée de 377 patients atteints de dengue en Colombie. Nous avons mesuré l'expression des DEG dans des échantillons de sang total prélevés lors de la présentation, avant la progression du SD. Nous avons ensuite comparé la précision du modèle XGBoost verrouillé et des signes avant-coureurs cliniques dans la prédiction du SD. Nous avons identifié huit DEG associés au SD dans les ensembles de données publics et construit un modèle XGBoost à 8 gènes qui prédit avec précision la progression du SD dans la cohorte de validation indépendante avec une sensibilité de 86,4 % (IC à 95 % 68,2-100) et une spécificité de 79,7 % (IC à 95 % 75,5-83,9). Compte tenu de la proportion de 5,8 % de cas de SD dans cette cohorte, le modèle à 8 gènes avait une valeur prédictive positive et négative (PPV et NPV) de 20,9 % (IC à 95 % 16,7-25,6) et 99,0 % (IC à 95 % 97,7-100,0), respectivement. Par rapport aux signes cliniques d'avertissement à la présentation, qui présentaient une sensibilité de 77,3 % (IC à 95 % 58,3-94,1) et une spécificité de 39,7 % (IC à 95 % 34,7-44,9), le modèle à 8 gènes a entraîné une réduction de 80 % du nombre nécessaire pour prédire (NNP) de 25,4 à 5,0. Il est important de noter que le modèle à 8 gènes a prédit avec précision l'écart-type subséquent au cours des trois premiers jours suivant l'apparition de la fièvre et jusqu'à trois jours avant la progression de l'écart-type. Le modèle XGBoost à 8 gènes, formé sur des ensembles de données publics hétérogènes, a prédit avec précision la progression de l'écart-type dans une grande cohorte prospective indépendante, y compris au stade fébrile précoce lorsque la prédiction de l'écart-type reste cliniquement difficile. Le modèle a le potentiel d'être traduit en un test pronostique au point de service pour réduire la morbidité et la mortalité liées à la dengue sans ressources de soins de santé extrêmement limitées.Translated Description (Spanish)
Cada año, entre 3 y 6 millones de personas desarrollan dengue grave (SD) potencialmente mortal. Los signos de advertencia clínica para SD se manifiestan tarde en el curso de la enfermedad y son inespecíficos, lo que lleva a casos perdidos y exceso de carga hospitalaria. Se necesitan con urgencia mejores pronósticos de SD. Integramos 11 conjuntos de datos públicos que perfilan el transcriptoma sanguíneo de 365 pacientes con dengue de todas las edades y de siete países, que abarcan la heterogeneidad biológica, clínica y técnica. Realizamos un análisis iterativo de múltiples cohortes para identificar genes expresados diferencialmente (DEG) entre pacientes no graves y progresores de SD. Utilizando solo estos DEG, entrenamos un modelo de aprendizaje automático de XGBoost en datos públicos para predecir la progresión a SD. Todos los parámetros del modelo se "bloquearon" antes de la validación en una cohorte independiente, inscrita prospectivamente de 377 pacientes con dengue en Colombia. Medimos la expresión de los DEG en muestras de sangre total recolectadas en el momento de la presentación, antes de la progresión del SD. Luego comparamos la precisión del modelo XGBoost bloqueado y las señales de advertencia clínica en la predicción de SD. Identificamos ocho DEG asociados a SD en los conjuntos de datos públicos y construimos un modelo XGBoost de 8 genes que predijo con precisión la progresión de SD en la cohorte de validación independiente con 86.4% (95% CI 68.2-100) de sensibilidad y 79.7% (95% CI 75.5-83.9) de especificidad. Dada la proporción de 5.8% de casos de SD en esta cohorte, el modelo de 8 genes tuvo un valor predictivo positivo y negativo (PPV y NPV) de 20.9% (95% CI 16.7-25.6) y 99.0% (95% CI 97.7-100.0), respectivamente. En comparación con los signos de advertencia clínicos en la presentación, que tenían una sensibilidad del 77,3% (IC del 95%: 58,3-94,1) y una especificidad del 39,7% (IC del 95%: 34,7-44,9), el modelo de 8 genes condujo a una reducción del 80% en el número necesario para predecir (NNP) de 25,4 a 5,0. Es importante destacar que el modelo de 8 genes predijo con precisión la SD posterior en los primeros tres días posteriores a la aparición de la fiebre y hasta tres días antes de la progresión de la SD. El modelo XGBoost de 8 genes, entrenado en conjuntos de datos públicos heterogéneos, predijo con precisión la progresión a SD en una cohorte grande, independiente y prospectiva, incluso durante la etapa febril temprana, cuando la predicción de la SD sigue siendo clínicamente difícil. El modelo tiene el potencial de traducirse en un ensayo de pronóstico en el punto de atención para reducir la morbilidad y mortalidad por dengue sin abrumar los limitados recursos de atención médica.Files
s13073-022-01034-w.pdf
Files
(3.7 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:f20e79bc719b2b1abf1268a50fe2794a
|
3.7 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- يحسن نموذج التعلم الآلي المكون من 8 جينات التنبؤ السريري بتطور حمى الضنك الشديد
- Translated title (French)
- Un modèle d'apprentissage automatique à 8 gènes améliore la prédiction clinique de la progression sévère de la dengue
- Translated title (Spanish)
- Un modelo de aprendizaje automático de 8 genes mejora la predicción clínica de la progresión grave del dengue
Identifiers
- Other
- https://openalex.org/W4220945150
- DOI
- 10.1186/s13073-022-01034-w
References
- https://openalex.org/W143461984
- https://openalex.org/W1518659327
- https://openalex.org/W1549304720
- https://openalex.org/W1831050183
- https://openalex.org/W1887321818
- https://openalex.org/W1887790309
- https://openalex.org/W1967021397
- https://openalex.org/W1970926254
- https://openalex.org/W1975852576
- https://openalex.org/W1976913665
- https://openalex.org/W1980707302
- https://openalex.org/W2006616448
- https://openalex.org/W2006617902
- https://openalex.org/W2017977879
- https://openalex.org/W2025149858
- https://openalex.org/W2039486002
- https://openalex.org/W2044446613
- https://openalex.org/W2063236058
- https://openalex.org/W2064499453
- https://openalex.org/W2105987140
- https://openalex.org/W2107665951
- https://openalex.org/W2107694587
- https://openalex.org/W2111149452
- https://openalex.org/W2114325274
- https://openalex.org/W2118056643
- https://openalex.org/W2134392597
- https://openalex.org/W2147013674
- https://openalex.org/W2151215988
- https://openalex.org/W2152575748
- https://openalex.org/W2152628774
- https://openalex.org/W2165374797
- https://openalex.org/W2170619342
- https://openalex.org/W2218326748
- https://openalex.org/W2260392875
- https://openalex.org/W2285903333
- https://openalex.org/W2295598076
- https://openalex.org/W2328176404
- https://openalex.org/W2338936985
- https://openalex.org/W2346069395
- https://openalex.org/W2520263151
- https://openalex.org/W2531643192
- https://openalex.org/W2638117886
- https://openalex.org/W2753392647
- https://openalex.org/W2786643779
- https://openalex.org/W2790812420
- https://openalex.org/W2802244781
- https://openalex.org/W2889037189
- https://openalex.org/W2894356359
- https://openalex.org/W2894828114
- https://openalex.org/W2912411326
- https://openalex.org/W2914590008
- https://openalex.org/W2914888844
- https://openalex.org/W2942068613
- https://openalex.org/W2952253916
- https://openalex.org/W2964477617
- https://openalex.org/W3001466437
- https://openalex.org/W3005749014
- https://openalex.org/W3009917904
- https://openalex.org/W3010267838
- https://openalex.org/W3016288338
- https://openalex.org/W3048761194
- https://openalex.org/W3081542135
- https://openalex.org/W3092093922
- https://openalex.org/W3097782415
- https://openalex.org/W3100646527
- https://openalex.org/W3101174255
- https://openalex.org/W3113628481
- https://openalex.org/W3133408366
- https://openalex.org/W3134687595
- https://openalex.org/W3138069999
- https://openalex.org/W31499223
- https://openalex.org/W3159902593
- https://openalex.org/W4287617058