Published July 7, 2024 | Version v1
Publication

Improving prediction of blood cancer using leukemia microarray gene data and Chi2 features with weighted convolutional neural network

  • 1. King Saud University
  • 2. Princess Nourah bint Abdulrahman University
  • 3. Islamia University of Bahawalpur
  • 4. Jeddah University
  • 5. Prince Sattam Bin Abdulaziz University
  • 6. Chonnam National University
  • 7. Yeungnam University

Description

Abstract Blood cancer has emerged as a growing concern over the past decade, necessitating early diagnosis for timely and effective treatment. The present diagnostic method, which involves a battery of tests and medical experts, is costly and time-consuming. For this reason, it is crucial to establish an automated diagnostic system for accurate predictions. A particular field of focus in medical research is the use of machine learning and leukemia microarray gene data for blood cancer diagnosis. Even with a great deal of research, more improvements are needed to reach the appropriate levels of accuracy and efficacy. This work presents a supervised machine-learning algorithm for blood cancer prediction. This work makes use of the 22,283-gene leukemia microarray gene data. Chi-squared (Chi2) feature selection methods and the synthetic minority oversampling technique (SMOTE)-Tomek resampling is used to overcome issues with imbalanced and high-dimensional datasets. To balance the dataset for each target class, SMOTE-Tomek creates synthetic data, and Chi2 chooses the most important features to train the learning models from 22,283 genes. A novel weighted convolutional neural network (CNN) model is proposed for classification, utilizing the support of three separate CNN models. To determine the importance of the proposed approach, extensive experiments are carried out on the datasets, including a performance comparison with the most advanced techniques. Weighted CNN demonstrates superior performance over other models when coupled with SMOTE-Tomek and Chi2 techniques, achieving a remarkable 99.9% accuracy. Results from k-fold cross-validation further affirm the supremacy of the proposed model.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

ظهر سرطان الدم التجريدي كمصدر قلق متزايد على مدى العقد الماضي، مما يستلزم التشخيص المبكر للعلاج الفعال في الوقت المناسب. طريقة التشخيص الحالية، التي تشمل مجموعة من الاختبارات والخبراء الطبيين، مكلفة وتستغرق وقتًا طويلاً. لهذا السبب، من الأهمية بمكان إنشاء نظام تشخيص آلي للتنبؤات الدقيقة. أحد مجالات التركيز الخاصة في البحث الطبي هو استخدام التعلم الآلي وبيانات جين مصفوفة اللوكيميا الدقيقة لتشخيص سرطان الدم. حتى مع وجود قدر كبير من البحث، هناك حاجة إلى مزيد من التحسينات للوصول إلى المستويات المناسبة من الدقة والفعالية. يقدم هذا العمل خوارزمية تعلم آلي خاضعة للإشراف للتنبؤ بسرطان الدم. يستفيد هذا العمل من بيانات المصفوفة الجينية الدقيقة لابيضاض الدم 22283. تتميز طرق اختيار مربع كاي (Chi2) وتقنية أخذ العينات الزائدة للأقلية الاصطناعية (SMOTE) - يتم استخدام إعادة أخذ عينات توميك للتغلب على المشكلات المتعلقة بمجموعات البيانات غير المتوازنة وعالية الأبعاد. لموازنة مجموعة البيانات لكل فئة مستهدفة، يقوم SMOTE - Tomk بإنشاء بيانات اصطناعية، ويختار Chi2 أهم الميزات لتدريب نماذج التعلم من 22283 جينًا. يُقترح نموذج جديد للشبكة العصبية الالتفافية المرجحة (CNN) للتصنيف، باستخدام دعم ثلاثة نماذج منفصلة لشبكة CNN. لتحديد أهمية النهج المقترح، يتم إجراء تجارب مكثفة على مجموعات البيانات، بما في ذلك مقارنة الأداء مع التقنيات الأكثر تقدمًا. تُظهر CNN المرجحة أداءً متفوقًا على النماذج الأخرى عندما تقترن بتقنيات SMOTE - Tomk و Chi2، مما يحقق دقة ملحوظة بنسبة 99.9 ٪. تؤكد النتائج الناتجة عن التحقق المتبادل من صحة k - fold بشكل أكبر على سيادة النموذج المقترح.

Translated Description (French)

Résumé Le cancer du sang est devenu une préoccupation croissante au cours de la dernière décennie, nécessitant un diagnostic précoce pour un traitement rapide et efficace. La présente méthode de diagnostic, qui implique une batterie de tests et d'experts médicaux, est coûteuse et prend beaucoup de temps. Pour cette raison, il est crucial d'établir un système de diagnostic automatisé pour des prédictions précises. Un domaine d'intérêt particulier dans la recherche médicale est l'utilisation de l'apprentissage automatique et des données génétiques sur les microréseaux de leucémie pour le diagnostic du cancer du sang. Même avec beaucoup de recherche, d'autres améliorations sont nécessaires pour atteindre les niveaux appropriés de précision et d'efficacité. Ce travail présente un algorithme d'apprentissage automatique supervisé pour la prédiction des cancers du sang. Ce travail utilise les données génétiques de la puce à leucémie à 22 283 gènes. Les méthodes de sélection des caractéristiques du Chi au carré (Chi2) et la technique de suréchantillonnage des minorités synthétiques (smote)-Tomek sont utilisées pour résoudre les problèmes liés aux ensembles de données déséquilibrés et de grande dimension. Pour équilibrer l'ensemble de données pour chaque classe cible, SMOTE-Tomek crée des données synthétiques, et Chi2 choisit les caractéristiques les plus importantes pour former les modèles d'apprentissage à partir de 22 283 gènes. Un nouveau modèle de réseau neuronal convolutionnel pondéré (CNN) est proposé pour la classification, en utilisant le support de trois modèles CNN distincts. Pour déterminer l'importance de l'approche proposée, des expériences approfondies sont menées sur les ensembles de données, y compris une comparaison des performances avec les techniques les plus avancées. Le CNN pondéré démontre des performances supérieures à celles des autres modèles lorsqu'il est associé aux techniques SMOTE-Tomek et Chi2, atteignant une précision remarquable de 99,9 %. Les résultats de la validation croisée par k confirment en outre la suprématie du modèle proposé.

Translated Description (Spanish)

Resumen El cáncer de sangre ha surgido como una preocupación creciente en la última década, lo que requiere un diagnóstico temprano para un tratamiento oportuno y eficaz. El presente método de diagnóstico, que implica una batería de pruebas y expertos médicos, es costoso y requiere mucho tiempo. Por esta razón, es crucial establecer un sistema de diagnóstico automatizado para obtener predicciones precisas. Un campo particular de enfoque en la investigación médica es el uso del aprendizaje automático y los datos genéticos de micromatrices de leucemia para el diagnóstico del cáncer de sangre. Incluso con una gran cantidad de investigación, se necesitan más mejoras para alcanzar los niveles adecuados de precisión y eficacia. Este trabajo presenta un algoritmo de aprendizaje automático supervisado para la predicción del cáncer de sangre. Este trabajo hace uso de los datos genéticos de la micromatriz de leucemia de 22.283 genes. Los métodos de selección de características de chi-cuadrado (Chi2) y la técnica de sobremuestreo de minorías sintéticas (SMOTE) -el remuestreo de Tomék se utiliza para superar problemas con conjuntos de datos desequilibrados y de alta dimensión. Para equilibrar el conjunto de datos para cada clase objetivo, SMOTE-Tomek crea datos sintéticos y Chi2 elige las características más importantes para entrenar los modelos de aprendizaje a partir de 22.283 genes. Se propone un nuevo modelo de red neuronal convolucional ponderada (CNN) para la clasificación, utilizando el apoyo de tres modelos CNN separados. Para determinar la importancia del enfoque propuesto, se llevan a cabo extensos experimentos en los conjuntos de datos, incluida una comparación de rendimiento con las técnicas más avanzadas. La CNN ponderada demuestra un rendimiento superior sobre otros modelos cuando se combina con las técnicas SMOTE-Tomek y Chi2, logrando una notable precisión del 99,9%. Los resultados de la validación cruzada k veces afirman aún más la supremacía del modelo propuesto.

Additional details

Additional titles

Translated title (Arabic)
تحسين التنبؤ بسرطان الدم باستخدام بيانات جين مصفوفة سرطان الدم الدقيقة وميزات Chi2 مع الشبكة العصبية الالتفافية المرجحة
Translated title (French)
Amélioration de la prédiction du cancer du sang à l'aide de données génétiques sur les microréseaux leucémiques et des caractéristiques du Chi2 avec un réseau neuronal convolutionnel pondéré
Translated title (Spanish)
Mejora de la predicción del cáncer de sangre utilizando datos genéticos de micromatrices de leucemia y características de Chi2 con red neuronal convolucional ponderada

Identifiers

Other
https://openalex.org/W4400398067
DOI
10.1038/s41598-024-65315-7

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1678356000
  • https://openalex.org/W1771155305
  • https://openalex.org/W1987552279
  • https://openalex.org/W1997852533
  • https://openalex.org/W2019655981
  • https://openalex.org/W2033560619
  • https://openalex.org/W2056132907
  • https://openalex.org/W2314513288
  • https://openalex.org/W2895493709
  • https://openalex.org/W2911935466
  • https://openalex.org/W3016457468
  • https://openalex.org/W3024017681
  • https://openalex.org/W3093302510
  • https://openalex.org/W3119534054
  • https://openalex.org/W3158733900
  • https://openalex.org/W3201017021
  • https://openalex.org/W4206486197
  • https://openalex.org/W4207029596
  • https://openalex.org/W4214608374
  • https://openalex.org/W4221085936
  • https://openalex.org/W4223442335
  • https://openalex.org/W4283589994
  • https://openalex.org/W4293169088
  • https://openalex.org/W4298137411
  • https://openalex.org/W4310117749
  • https://openalex.org/W4319707252
  • https://openalex.org/W4378471231