Published March 29, 2023 | Version v1
Publication Open

Predicting Breast Cancer with Ensemble Methods on Cloud

  • 1. Vinh Long University of Technology Education
  • 2. Can Tho University

Description

There are many dangerous diseases and high mortality rates for women (including breast cancer). If the disease is detected early, correctly diagnosed and treated at the right time, the likelihood of illness and death is reduced. Previous disease prediction models have mainly focused on methods for building individual models. However, these predictive models do not yet have high accuracy and high generalization performance. In this paper, we focus on combining these individual models together to create a combined model, which is more generalizable than the individual models. Three ensemble techniques used in the experiment are: Bagging; Boosting and Stacking (Stacking include three models: Gradient Boost, Random Forest, Logistic Regression) to deploy and apply to breast cancer prediction problem. The experimental results show the combined model with the ensemble methods based on the Breast Cancer Wisconsin dataset; this combined model has a higher predictive performance than the commonly used individual prediction models.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

هناك العديد من الأمراض الخطيرة وارتفاع معدلات وفيات النساء (بما في ذلك سرطان الثدي). إذا تم اكتشاف المرض في وقت مبكر، وتم تشخيصه وعلاجه بشكل صحيح في الوقت المناسب، فسيتم تقليل احتمالية المرض والوفاة. ركزت نماذج التنبؤ بالأمراض السابقة بشكل أساسي على طرق بناء النماذج الفردية. ومع ذلك، فإن هذه النماذج التنبؤية لا تتمتع بعد بدقة عالية وأداء تعميم عالي. في هذه الورقة، نركز على الجمع بين هذه النماذج الفردية معًا لإنشاء نموذج مشترك، وهو أكثر قابلية للتعميم من النماذج الفردية. ثلاث تقنيات للمجموعة المستخدمة في التجربة هي: التعبئة ؛ التعزيز والتكديس (يتضمن التكديس ثلاثة نماذج: التعزيز المتدرج، والغابات العشوائية، والانحدار اللوجستي) للنشر والتطبيق على مشكلة التنبؤ بسرطان الثدي. تُظهر النتائج التجريبية النموذج المدمج مع طرق المجموعة القائمة على مجموعة بيانات سرطان الثدي في ويسكونسن ؛ يتمتع هذا النموذج المدمج بأداء تنبؤي أعلى من نماذج التنبؤ الفردية الشائعة الاستخدام.

Translated Description (French)

Il existe de nombreuses maladies dangereuses et des taux de mortalité élevés chez les femmes (y compris le cancer du sein). Si la maladie est détectée tôt, correctement diagnostiquée et traitée au bon moment, la probabilité de maladie et de décès est réduite. Les modèles de prédiction des maladies précédents se sont principalement concentrés sur les méthodes de construction de modèles individuels. Cependant, ces modèles prédictifs n'ont pas encore une grande précision et des performances de généralisation élevées. Dans cet article, nous nous concentrons sur la combinaison de ces modèles individuels pour créer un modèle combiné, qui est plus généralisable que les modèles individuels. Trois techniques d'ensemble utilisées dans l'expérience sont : l'ensachage ; l'amplification et l'empilage (l'empilage comprend trois modèles : l'amplification par gradient, la forêt aléatoire, la régression logistique) à déployer et à appliquer au problème de prédiction du cancer du sein. Les résultats expérimentaux montrent le modèle combiné avec les méthodes d'ensemble basées sur l'ensemble de données du cancer du sein au Wisconsin ; ce modèle combiné a une performance prédictive plus élevée que les modèles de prédiction individuels couramment utilisés.

Translated Description (Spanish)

Hay muchas enfermedades peligrosas y altas tasas de mortalidad para las mujeres (incluido el cáncer de mama). Si la enfermedad se detecta a tiempo, se diagnostica correctamente y se trata en el momento adecuado, la probabilidad de enfermedad y muerte se reduce. Los modelos anteriores de predicción de enfermedades se han centrado principalmente en métodos para construir modelos individuales. Sin embargo, estos modelos predictivos aún no tienen una alta precisión y un alto rendimiento de generalización. En este documento, nos centramos en combinar estos modelos individuales para crear un modelo combinado, que es más generalizable que los modelos individuales. Tres técnicas de conjunto utilizadas en el experimento son: Bagging; Boosting y Stacking (el Stacking incluye tres modelos: Gradient Boost, Random Forest, Logistic Regression) para implementar y aplicar al problema de predicción del cáncer de mama. Los resultados experimentales muestran el modelo combinado con los métodos de conjunto basados en el conjunto de datos de Breast Cancer Wisconsin; este modelo combinado tiene un mayor rendimiento predictivo que los modelos de predicción individuales comúnmente utilizados.

Files

2321.pdf

Files (1.5 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5dbcac132960826897527a296c0d57e7
1.5 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
التنبؤ بسرطان الثدي مع طرق المجموعة على السحابة
Translated title (French)
Prédire le cancer du sein avec les méthodes Ensemble sur le nuage
Translated title (Spanish)
Predicción del cáncer de mama con métodos de conjunto en la nube

Identifiers

Other
https://openalex.org/W4361294948
DOI
10.4108/eetcasa.v8i2.2788

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1485958089
  • https://openalex.org/W2084362125
  • https://openalex.org/W2178957972
  • https://openalex.org/W2370924594
  • https://openalex.org/W2498672755
  • https://openalex.org/W2784023622
  • https://openalex.org/W28412257
  • https://openalex.org/W2901761545
  • https://openalex.org/W2941702487
  • https://openalex.org/W3004732066
  • https://openalex.org/W3083171672
  • https://openalex.org/W3102476541
  • https://openalex.org/W3113873473
  • https://openalex.org/W3117412604
  • https://openalex.org/W3156773603
  • https://openalex.org/W4212883601
  • https://openalex.org/W4220976903
  • https://openalex.org/W4221028172
  • https://openalex.org/W4223925771
  • https://openalex.org/W4236137412
  • https://openalex.org/W4248437541