Published February 13, 2024 | Version v1
Publication Open

Gene selection for high dimensional biological datasets using hybrid island binary artificial bee colony with chaos game optimization

  • 1. University of Sousse
  • 2. Guru Nanak Dev University
  • 3. Torrens University Australia

Description

Abstract Microarray technology, as applied to the fields of bioinformatics, biotechnology, and bioengineering, has made remarkable progress in both the treatment and prediction of many biological problems. However, this technology presents a critical challenge due to the size of the numerous genes present in the high-dimensional biological datasets associated with an experiment, which leads to a curse of dimensionality on biological data. Such high dimensionality of real biological data sets not only increases memory requirements and training costs, but also reduces the ability of learning algorithms to generalise. Consequently, multiple feature selection (FS) methods have been proposed by researchers to choose the most significant and precise subset of classified genes from gene expression datasets while maintaining high classification accuracy. In this research work, a novel binary method called i BABC-CGO based on the island model of the artificial bee colony algorithm, combined with the chaos game optimization algorithm and SVM classifier, is suggested for FS problems using gene expression data. Due to the binary nature of FS problems, two distinct transfer functions are employed for converting the continuous search space into a binary one, thus improving the efficiency of the exploration and exploitation phases. The suggested strategy is tested on a variety of biological datasets with different scales and compared to popular metaheuristic-based, filter-based, and hybrid FS methods. Experimental results supplemented with the statistical measures, box plots, Wilcoxon tests, Friedman tests, and radar plots demonstrate that compared to prior methods, the proposed i BABC-CGO exhibit competitive performance in terms of classification accuracy, selection of the most relevant subset of genes, data variability, and convergence rate. The suggested method is also proven to identify unique sets of informative, relevant genes successfully with the highest overall average accuracy in 15 tested biological datasets. Additionally, the biological interpretations of the selected genes by the proposed method are also provided in our research work.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

حققت تقنية المصفوفة الدقيقة المجردة، كما هي مطبقة في مجالات المعلوماتية الحيوية والتكنولوجيا الحيوية والهندسة الحيوية، تقدمًا ملحوظًا في كل من علاج العديد من المشاكل البيولوجية والتنبؤ بها. ومع ذلك، تمثل هذه التقنية تحديًا حاسمًا نظرًا لحجم الجينات العديدة الموجودة في مجموعات البيانات البيولوجية عالية الأبعاد المرتبطة بالتجربة، مما يؤدي إلى لعنة الأبعاد على البيانات البيولوجية. لا تؤدي هذه الأبعاد العالية لمجموعات البيانات البيولوجية الحقيقية إلى زيادة متطلبات الذاكرة وتكاليف التدريب فحسب، بل تقلل أيضًا من قدرة خوارزميات التعلم على التعميم. وبالتالي، اقترح الباحثون طرقًا متعددة لاختيار السمات (FS) لاختيار المجموعة الفرعية الأكثر أهمية ودقة من الجينات المصنفة من مجموعات بيانات التعبير الجيني مع الحفاظ على دقة تصنيف عالية. في هذا العمل البحثي، يتم اقتراح طريقة ثنائية جديدة تسمى i BABC - CGO بناءً على نموذج الجزيرة لخوارزمية مستعمرة النحل الاصطناعية، جنبًا إلى جنب مع خوارزمية تحسين لعبة الفوضى ومصنف SVM، لمشاكل FS باستخدام بيانات التعبير الجيني. نظرًا للطبيعة الثنائية لمشاكل الخدمات المالية، يتم استخدام وظيفتي نقل متميزتين لتحويل مساحة البحث المستمر إلى مساحة ثنائية، وبالتالي تحسين كفاءة مرحلتي الاستكشاف والاستغلال. يتم اختبار الاستراتيجية المقترحة على مجموعة متنوعة من مجموعات البيانات البيولوجية بمقاييس مختلفة ومقارنتها بطرق FS الشائعة القائمة على ما بعد التجربة والقائمة على المرشح والهجينة. تُظهر النتائج التجريبية المستكملة بالمقاييس الإحصائية، ومخططات الصناديق، واختبارات ويلكوكسون، واختبارات فريدمان، ومخططات الرادار أنه مقارنة بالطرق السابقة، تُظهر BABC - CGO المقترحة أداءً تنافسيًا من حيث دقة التصنيف، واختيار المجموعة الفرعية الأكثر صلة من الجينات، وتقلب البيانات، ومعدل التقارب. ثبت أيضًا أن الطريقة المقترحة تحدد مجموعات فريدة من الجينات المفيدة وذات الصلة بنجاح بأعلى متوسط دقة إجمالية في 15 مجموعة بيانات بيولوجية تم اختبارها. بالإضافة إلى ذلك، يتم توفير التفسيرات البيولوجية للجينات المختارة بالطريقة المقترحة في عملنا البحثي.

Translated Description (French)

La technologie des microréseaux abstraits, appliquée aux domaines de la bioinformatique, de la biotechnologie et de la bio-ingénierie, a fait des progrès remarquables à la fois dans le traitement et la prédiction de nombreux problèmes biologiques. Cependant, cette technologie présente un défi critique en raison de la taille des nombreux gènes présents dans les ensembles de données biologiques de haute dimension associés à une expérience, ce qui conduit à une malédiction de dimensionnalité sur les données biologiques. Une telle dimensionnalité des ensembles de données biologiques réelles augmente non seulement les besoins en mémoire et les coûts de formation, mais réduit également la capacité des algorithmes d'apprentissage à généraliser. Par conséquent, des méthodes de sélection de caractéristiques multiples (FS) ont été proposées par les chercheurs pour choisir le sous-ensemble le plus significatif et le plus précis de gènes classifiés à partir d'ensembles de données d'expression génique tout en maintenant une précision de classification élevée. Dans ce travail de recherche, une nouvelle méthode binaire appelée i BABC-CGO basée sur le modèle d'îlot de l'algorithme de colonie d'abeilles artificielles, combinée à l'algorithme d'optimisation du jeu du chaos et au classificateur SVM, est suggérée pour les problèmes de FS utilisant des données d'expression génique. En raison de la nature binaire des problèmes FS, deux fonctions de transfert distinctes sont utilisées pour convertir l'espace de recherche continue en un espace binaire, améliorant ainsi l'efficacité des phases d'exploration et d'exploitation. La stratégie suggérée est testée sur une variété d'ensembles de données biologiques à différentes échelles et comparée aux méthodes de FS métaheuristiques, filtrantes et hybrides populaires. Les résultats expérimentaux complétés par les mesures statistiques, les diagrammes en boîte, les tests de Wilcoxon, les tests de Friedman et les diagrammes radar démontrent que, par rapport aux méthodes antérieures, le i BABC-CGO proposé présente des performances compétitives en termes de précision de classification, de sélection du sous-ensemble de gènes le plus pertinent, de variabilité des données et de taux de convergence. Il est également prouvé que la méthode suggérée identifie avec succès des ensembles uniques de gènes informatifs et pertinents avec la précision moyenne globale la plus élevée dans 15 ensembles de données biologiques testés. De plus, les interprétations biologiques des gènes sélectionnés par la méthode proposée sont également fournies dans nos travaux de recherche.

Translated Description (Spanish)

Resumen La tecnología de micromatrices, aplicada a los campos de la bioinformática, la biotecnología y la bioingeniería, ha logrado un progreso notable tanto en el tratamiento como en la predicción de muchos problemas biológicos. Sin embargo, esta tecnología presenta un desafío crítico debido al tamaño de los numerosos genes presentes en los conjuntos de datos biológicos de alta dimensión asociados con un experimento, lo que conduce a una maldición de dimensionalidad en los datos biológicos. Esta alta dimensionalidad de los conjuntos de datos biológicos reales no solo aumenta los requisitos de memoria y los costes de formación, sino que también reduce la capacidad de generalización de los algoritmos de aprendizaje. En consecuencia, los investigadores han propuesto métodos de selección de características múltiples (FS) para elegir el subconjunto más significativo y preciso de genes clasificados a partir de conjuntos de datos de expresión génica, manteniendo al mismo tiempo una alta precisión de clasificación. En este trabajo de investigación, se sugiere un nuevo método binario llamado iBABC-CGO basado en el modelo de isla del algoritmo de colonias de abejas artificiales, combinado con el algoritmo de optimización del juego del caos y el clasificador SVM, para problemas de FS utilizando datos de expresión génica. Debido a la naturaleza binaria de los problemas de FS, se emplean dos funciones de transferencia distintas para convertir el espacio de búsqueda continua en uno binario, mejorando así la eficiencia de las fases de exploración y explotación. La estrategia sugerida se prueba en una variedad de conjuntos de datos biológicos con diferentes escalas y se compara con los métodos populares de FS metaheurísticos, basados en filtros e híbridos. Los resultados experimentales complementados con las medidas estadísticas, los diagramas de caja, las pruebas de Wilcoxon, las pruebas de Friedman y los diagramas de radar demuestran que, en comparación con los métodos anteriores, el iBABC-CGO propuesto exhibe un rendimiento competitivo en términos de precisión de clasificación, selección del subconjunto más relevante de genes, variabilidad de datos y tasa de convergencia. También se ha demostrado que el método sugerido identifica con éxito conjuntos únicos de genes informativos y relevantes con la mayor precisión promedio general en 15 conjuntos de datos biológicos probados. Además, las interpretaciones biológicas de los genes seleccionados por el método propuesto también se proporcionan en nuestro trabajo de investigación.

Files

s10462-023-10675-1.pdf.pdf

Files (11.3 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:33463fcb9331317b3d2718b3dc61ca34
11.3 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
اختيار الجينات لمجموعات البيانات البيولوجية عالية الأبعاد باستخدام مستعمرة النحل الاصطناعي الثنائية للجزيرة الهجينة مع تحسين لعبة الفوضى
Translated title (French)
Sélection de gènes pour des ensembles de données biologiques de haute dimension à l'aide d'une colonie d'abeilles artificielles binaires hybrides avec optimisation du jeu chaos
Translated title (Spanish)
Selección de genes para conjuntos de datos biológicos de alta dimensión utilizando colonias de abejas artificiales binarias de islas híbridas con optimización del juego del caos

Identifiers

Other
https://openalex.org/W4391799681
DOI
10.1007/s10462-023-10675-1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Tunisia

References

  • https://openalex.org/W63025775
  • https://openalex.org/W200409851
  • https://openalex.org/W1480376833
  • https://openalex.org/W1500895378
  • https://openalex.org/W1515116843
  • https://openalex.org/W1547418289
  • https://openalex.org/W1556242797
  • https://openalex.org/W1692174238
  • https://openalex.org/W1693712237
  • https://openalex.org/W1730693163
  • https://openalex.org/W1851861644
  • https://openalex.org/W1963626514
  • https://openalex.org/W1965202052
  • https://openalex.org/W1965969360
  • https://openalex.org/W1968075052
  • https://openalex.org/W1968390680
  • https://openalex.org/W1983380373
  • https://openalex.org/W1985359699
  • https://openalex.org/W2000621750
  • https://openalex.org/W2002081710
  • https://openalex.org/W2011702368
  • https://openalex.org/W2013885787
  • https://openalex.org/W2015079391
  • https://openalex.org/W2019733524
  • https://openalex.org/W2030009006
  • https://openalex.org/W2032375313
  • https://openalex.org/W2033074013
  • https://openalex.org/W2037134354
  • https://openalex.org/W2043325537
  • https://openalex.org/W2077218694
  • https://openalex.org/W2077655735
  • https://openalex.org/W2079657634
  • https://openalex.org/W2085281262
  • https://openalex.org/W2106961302
  • https://openalex.org/W2114652055
  • https://openalex.org/W2117471842
  • https://openalex.org/W2117613928
  • https://openalex.org/W2149954962
  • https://openalex.org/W2150834164
  • https://openalex.org/W2151554678
  • https://openalex.org/W2158868693
  • https://openalex.org/W2167101736
  • https://openalex.org/W2343420905
  • https://openalex.org/W2411885377
  • https://openalex.org/W2461302873
  • https://openalex.org/W2535511304
  • https://openalex.org/W2560046788
  • https://openalex.org/W2585784318
  • https://openalex.org/W2594429093
  • https://openalex.org/W2605861043
  • https://openalex.org/W2744774093
  • https://openalex.org/W2765937321
  • https://openalex.org/W2801546810
  • https://openalex.org/W2805441984
  • https://openalex.org/W2881742599
  • https://openalex.org/W2890843359
  • https://openalex.org/W2892369032
  • https://openalex.org/W2899750879
  • https://openalex.org/W2901312974
  • https://openalex.org/W2940151662
  • https://openalex.org/W2943528199
  • https://openalex.org/W2953484196
  • https://openalex.org/W2953622398
  • https://openalex.org/W2954444967
  • https://openalex.org/W2981755968
  • https://openalex.org/W3004993223
  • https://openalex.org/W3005582339
  • https://openalex.org/W3008681483
  • https://openalex.org/W3010181212
  • https://openalex.org/W3011552424
  • https://openalex.org/W3026512653
  • https://openalex.org/W3027341029
  • https://openalex.org/W3036361249
  • https://openalex.org/W3041043498
  • https://openalex.org/W3045587924
  • https://openalex.org/W3047346450
  • https://openalex.org/W3082583002
  • https://openalex.org/W3084996758
  • https://openalex.org/W3126272831
  • https://openalex.org/W3127432888
  • https://openalex.org/W3137676098
  • https://openalex.org/W3147999938
  • https://openalex.org/W3154890230
  • https://openalex.org/W3160003635
  • https://openalex.org/W3194343069
  • https://openalex.org/W4200075411
  • https://openalex.org/W4200116821
  • https://openalex.org/W4206380823
  • https://openalex.org/W4206558648
  • https://openalex.org/W4210479225
  • https://openalex.org/W4221064141
  • https://openalex.org/W4224290700
  • https://openalex.org/W4229379071
  • https://openalex.org/W4249247926
  • https://openalex.org/W4251163770
  • https://openalex.org/W4295234900
  • https://openalex.org/W4295464108
  • https://openalex.org/W4300369442
  • https://openalex.org/W4301229630
  • https://openalex.org/W4307031226
  • https://openalex.org/W4321499773
  • https://openalex.org/W4366606609