Published October 23, 2018 | Version v1
Publication Open

A comparison of model selection methods for prediction in the presence of multiply imputed data

  • 1. Oxford University Clinical Research Unit
  • 2. University of Oxford

Description

Abstract Many approaches for variable selection with multiply imputed data in the development of a prognostic model have been proposed. However, no method prevails as uniformly best. We conducted a simulation study with a binary outcome and a logistic regression model to compare two classes of variable selection methods in the presence of MI data: (I) Model selection on bootstrap data, using backward elimination based on AIC or lasso, and fit the final model based on the most frequently (e.g. ) selected variables over all MI and bootstrap data sets; (II) Model selection on original MI data, using lasso. The final model is obtained by (i) averaging estimates of variables that were selected in any MI data set or (ii) in 50% of the MI data; (iii) performing lasso on the stacked MI data, and (iv) as in (iii) but using individual weights as determined by the fraction of missingness. In all lasso models, we used both the optimal penalty and the 1‐se rule. We considered recalibrating models to correct for overshrinkage due to the suboptimal penalty by refitting the linear predictor or all individual variables. We applied the methods on a real dataset of 951 adult patients with tuberculous meningitis to predict mortality within nine months. Overall, applying lasso selection with the 1‐se penalty shows the best performance, both in approach I and II. Stacking MI data is an attractive approach because it does not require choosing a selection threshold when combining results from separate MI data sets

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الملخص تم اقتراح العديد من مناهج اختيار المتغيرات مع مضاعفة البيانات المنسوبة في تطوير نموذج تنبؤي. ومع ذلك، لا توجد طريقة تسود بشكل أفضل بشكل موحد. أجرينا دراسة محاكاة بنتيجة ثنائية ونموذج انحدار لوجستي لمقارنة فئتين من طرق اختيار المتغيرات في وجود بيانات MI: (1) اختيار النموذج على بيانات bootstrap، باستخدام الحذف العكسي بناءً على AIC أو LASSO، وتناسب النموذج النهائي بناءً على المتغيرات الأكثر تكرارًا (على سبيل المثال ) المحددة على جميع مجموعات بيانات MI و bootstrap ؛ (2) اختيار النموذج على بيانات MI الأصلية، باستخدام LASSO. يتم الحصول على النموذج النهائي من خلال (1) متوسط تقديرات المتغيرات التي تم اختيارها في أي مجموعة بيانات MI أو (2) في 50 ٪ من بيانات MI ؛ (3) إجراء LASSO على بيانات MI المكدسة، و (4) كما في (3) ولكن باستخدام الأوزان الفردية على النحو الذي يحدده جزء النقص. في جميع نماذج اللاسو، استخدمنا كل من العقوبة المثلى وقاعدة 1-se. نظرنا في إعادة معايرة النماذج لتصحيح الانكماش الزائد بسبب العقوبة دون المستوى الأمثل من خلال إعادة تركيب المتنبئ الخطي أو جميع المتغيرات الفردية. طبقنا الأساليب على مجموعة بيانات حقيقية من 951 مريضًا بالغًا مصابًا بالتهاب السحايا السلي للتنبؤ بالوفيات في غضون تسعة أشهر. بشكل عام، يُظهر تطبيق اختيار اللاسو مع الغرامة الأولى أفضل أداء، سواء في النهج الأول أو الثاني. يعد تكديس بيانات MI نهجًا جذابًا لأنه لا يتطلب اختيار عتبة اختيار عند دمج النتائج من مجموعات بيانات MI منفصلة

Translated Description (French)

Résumé De nombreuses approches de sélection de variables avec des données imputées par multiplication dans le développement d'un modèle pronostique ont été proposées. Cependant, aucune méthode ne prévaut aussi uniformément. Nous avons mené une étude de simulation avec un résultat binaire et un modèle de régression logistique pour comparer deux classes de méthodes de sélection de variables en présence de données MI : (I) Sélection du modèle sur les données d'amorçage, en utilisant l'élimination ascendante basée sur l'AIC ou le lasso, et ajuster le modèle final en fonction des variables les plus fréquemment sélectionnées (par exemple ) sur tous les ensembles de données MI et d'amorçage ; (II) Sélection du modèle sur les données MI d'origine, en utilisant le lasso. Le modèle final est obtenu en (i) faisant la moyenne des estimations des variables qui ont été sélectionnées dans n'importe quel ensemble de données d'IM ou (ii) dans 50 % des données d'IM ; (iii) en effectuant un lasso sur les données d'IM empilées, et (iv) comme en (iii) mais en utilisant des poids individuels déterminés par la fraction de manque. Dans tous les modèles de lasso, nous avons utilisé à la fois la pénalité optimale et la règle du 1‐se. Nous avons envisagé de recalibrer les modèles pour corriger le dépassement dû à la pénalité sous-optimale en réajustant le prédicteur linéaire ou toutes les variables individuelles. Nous avons appliqué les méthodes sur un ensemble de données réelles de 951 patients adultes atteints de méningite tuberculeuse pour prédire la mortalité dans les neuf mois. Dans l'ensemble, l'application de la sélection lasso avec la pénalité 1‐se montre la meilleure performance, à la fois dans l'approche I et II. L'empilage des données MI est une approche attrayante car elle ne nécessite pas de choisir un seuil de sélection lors de la combinaison des résultats d'ensembles de données MI distincts

Translated Description (Spanish)

Resumen Se han propuesto muchos enfoques para la selección de variables con datos de imputación múltiple en el desarrollo de un modelo de pronóstico. Sin embargo, ningún método prevalece como uniformemente mejor. Realizamos un estudio de simulación con un resultado binario y un modelo de regresión logística para comparar dos clases de métodos de selección de variables en presencia de datos de IM: (I) Selección del modelo en datos de arranque, utilizando eliminación hacia atrás basada en AIC o Lasso, y ajustar el modelo final basado en las variables seleccionadas con mayor frecuencia (por ejemplo,) en todos los conjuntos de datos de IM y de arranque; (II) Selección del modelo en datos de IM originales, utilizando Lasso. El modelo final se obtiene (i) promediando las estimaciones de las variables que se seleccionaron en cualquier conjunto de datos de IM o (ii) en el 50% de los datos de IM; (iii) realizando el lazo en los datos de IM apilados, y (iv) como en (iii) pero utilizando pesos individuales según lo determinado por la fracción de ausencia. En todos los modelos de lazo, utilizamos tanto la penalización óptima como la regla 1‐se. Consideramos recalibrar los modelos para corregir el encogimiento excesivo debido a la penalización subóptima reajustando el predictor lineal o todas las variables individuales. Aplicamos los métodos en un conjunto de datos reales de 951 pacientes adultos con meningitis tuberculosa para predecir la mortalidad en un plazo de nueve meses. En general, la aplicación de la selección de lazo con la penalización 1-se muestra el mejor rendimiento, tanto en el enfoque I como en el II. El apilamiento de datos de MI es un enfoque atractivo porque no requiere elegir un umbral de selección al combinar resultados de conjuntos de datos de MI separados

Files

bimj.201700232.pdf

Files (15.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:16d62377b06300ae8bd70afc1eca53ab
15.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
مقارنة بين طرق اختيار النموذج للتنبؤ في وجود بيانات محسوبة بالضرب
Translated title (French)
Une comparaison des méthodes de sélection de modèles pour la prédiction en présence de données imputées multiples
Translated title (Spanish)
Una comparación de los métodos de selección de modelos para la predicción en presencia de datos imputados múltiples

Identifiers

Other
https://openalex.org/W2898355413
DOI
10.1002/bimj.201700232

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1970502168
  • https://openalex.org/W1978954330
  • https://openalex.org/W1999472732
  • https://openalex.org/W2004815652
  • https://openalex.org/W2005995330
  • https://openalex.org/W2026044573
  • https://openalex.org/W2037668591
  • https://openalex.org/W2053638510
  • https://openalex.org/W2073970954
  • https://openalex.org/W2098185117
  • https://openalex.org/W2100697007
  • https://openalex.org/W2109325327
  • https://openalex.org/W2115709314
  • https://openalex.org/W2119910794
  • https://openalex.org/W2134843796
  • https://openalex.org/W2136270600
  • https://openalex.org/W2140047866
  • https://openalex.org/W2149752470
  • https://openalex.org/W2152518626
  • https://openalex.org/W2333921168
  • https://openalex.org/W2480680997
  • https://openalex.org/W2526967658
  • https://openalex.org/W2617580025
  • https://openalex.org/W2758427704
  • https://openalex.org/W2787894218
  • https://openalex.org/W4213286494
  • https://openalex.org/W4294541781
  • https://openalex.org/W429766147
  • https://openalex.org/W4298826872
  • https://openalex.org/W4385997046
  • https://openalex.org/W612972800