Published March 14, 2022 | Version v1
Publication Open

Heap Based Optimizer Algorithm for Solving Feature Selection Problems in High-Dimensional Cancer Microarray Data

Description

Abstract Feature selection (FS) is an important preprocessing step that has been commonly used in several fields to improve the performance of learning algorithms. In the field of medical data mining, a huge number of features are used in diagnosing disease, but these features have a lot of non-relevant weak correlations and redundant characteristics, which causes a number of problems that adversely affect diagnostic predictive accuracy. Work on FS has grown extensively many fields due to increased demand for methods that can reduce the dimensionality of data by choosing the best subset of features according to specific criteria in order to maximize prediction accuracy and minimize irrelevant features. In recent times, metaheuristics have been preferred over conventional optimization methods for solving FS problems in order to try to obtain an almost optimal solution in a finite time. Metaheuristics are general-purpose algorithms that can be used to solve almost any optimization problem because they generate "appropriate" solutions in a reasonable amount of time, which is especially useful when seeking to solve complicated problems. Many popular implementations have shown the utility of metaheuristics in different ways by contrasting their performance on well-known problems with that of other algorithms or applications .There are many metaheuristic algorithms in the literature such as those based on swarm intelligence, including particle swarm optimizations and ant colony optimization. The major objective of this research is to provide an increased degree of accuracy to resolve FS problems by conducting different experiments using a metaheuristic algorithm, namely the heap-based optimizer algorithm (HBO). The HBO is used with a k-nearest neighbor classifier in a wrapper to improve the FS process. The performance of the proposed method is evaluated and compared against seven approaches in the literature that are applied on nine high-dimensional data sets that contain, a low number of samples and multiple classes. The findings reveal that the HBO decreases the number of features for classification tasks, and is able to achieve high accuracy in two data sets as compared to the other approaches, the BHBO achieved the best convergence speed as compared to the competing methods. It is therefore concluded that the proposed HBO method can be used to optimize the FS process, whether in terms of classification accuracy or selection size.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد اختيار ميزة الملخص (FS) خطوة مهمة من خطوات المعالجة المسبقة التي تم استخدامها بشكل شائع في العديد من المجالات لتحسين أداء خوارزميات التعلم. في مجال استخراج البيانات الطبية، يتم استخدام عدد كبير من الميزات في تشخيص المرض، ولكن هذه الميزات لها الكثير من الارتباطات الضعيفة غير ذات الصلة والخصائص الزائدة عن الحاجة، مما يسبب عددًا من المشكلات التي تؤثر سلبًا على الدقة التنبؤية التشخيصية. نما العمل على الخدمات المالية على نطاق واسع في العديد من المجالات بسبب زيادة الطلب على الأساليب التي يمكن أن تقلل من أبعاد البيانات عن طريق اختيار أفضل مجموعة فرعية من الميزات وفقًا لمعايير محددة من أجل زيادة دقة التنبؤ وتقليل الميزات غير ذات الصلة. في الآونة الأخيرة، تم تفضيل الاستدلال الفوقي على طرق التحسين التقليدية لحل مشاكل الخدمات المالية من أجل محاولة الحصول على حل مثالي تقريبًا في وقت محدود. Metaheuristics هي خوارزميات للأغراض العامة يمكن استخدامها لحل أي مشكلة تحسين تقريبًا لأنها تولد حلولًا "مناسبة" في فترة زمنية معقولة، وهو أمر مفيد بشكل خاص عند السعي لحل المشكلات المعقدة. أظهرت العديد من التطبيقات الشائعة فائدة ما وراء الهندسة بطرق مختلفة من خلال مقارنة أدائها في المشكلات المعروفة بأداء الخوارزميات أو التطبيقات الأخرى. هناك العديد من خوارزميات ما وراء الهندسة في الأدبيات مثل تلك القائمة على ذكاء السرب، بما في ذلك تحسين سرب الجسيمات وتحسين مستعمرة النمل. الهدف الرئيسي من هذا البحث هو توفير درجة متزايدة من الدقة لحل مشاكل الخدمات المالية من خلال إجراء تجارب مختلفة باستخدام خوارزمية ميتاهورية، وهي خوارزمية المحسن القائم على الكومة (HBO). يتم استخدام HBO مع أقرب مصنف جار في غلاف لتحسين عملية FS. يتم تقييم أداء الطريقة المقترحة ومقارنتها مع سبعة مناهج في الأدبيات التي يتم تطبيقها على تسع مجموعات بيانات عالية الأبعاد تحتوي على عدد قليل من العينات وفئات متعددة. تكشف النتائج أن HBO يقلل من عدد ميزات مهام التصنيف، وهو قادر على تحقيق دقة عالية في مجموعتين من البيانات مقارنة بالنهج الأخرى، وقد حقق BHBO أفضل سرعة تقارب مقارنة بالطرق المنافسة. لذلك تم استنتاج أنه يمكن استخدام طريقة HBO المقترحة لتحسين عملية الخدمات المالية، سواء من حيث دقة التصنيف أو حجم الاختيار.

Translated Description (French)

La sélection de caractéristiques abstraites (FS) est une étape importante de prétraitement qui a été couramment utilisée dans plusieurs domaines pour améliorer les performances des algorithmes d'apprentissage. Dans le domaine de l'exploration de données médicales, un grand nombre de fonctionnalités sont utilisées dans le diagnostic des maladies, mais ces fonctionnalités présentent de nombreuses corrélations faibles non pertinentes et des caractéristiques redondantes, ce qui provoque un certain nombre de problèmes qui affectent négativement la précision prédictive du diagnostic. Le travail sur la SV a considérablement augmenté dans de nombreux domaines en raison de la demande accrue de méthodes qui peuvent réduire la dimensionnalité des données en choisissant le meilleur sous-ensemble de caractéristiques en fonction de critères spécifiques afin de maximiser la précision de la prédiction et de minimiser les caractéristiques non pertinentes. Ces derniers temps, la métaheuristique a été préférée aux méthodes d'optimisation conventionnelles pour résoudre les problèmes de FS afin d'essayer d'obtenir une solution presque optimale dans un temps fini. Les métaheuristiques sont des algorithmes à usage général qui peuvent être utilisés pour résoudre presque tous les problèmes d'optimisation, car ils génèrent des solutions « appropriées » dans un délai raisonnable, ce qui est particulièrement utile lorsque l'on cherche à résoudre des problèmes complexes. De nombreuses implémentations populaires ont montré l'utilité de la métaheuristique de différentes manières en comparant leurs performances sur des problèmes bien connus avec celles d'autres algorithmes ou applications. Il existe de nombreux algorithmes métaheuristiques dans la littérature tels que ceux basés sur l'intelligence d'essaim, y compris les optimisations d'essaim de particules et l'optimisation de colonies de fourmis. L'objectif principal de cette recherche est de fournir un degré de précision accru pour résoudre les problèmes de FS en menant différentes expériences à l'aide d'un algorithme métaheuristique, à savoir l'algorithme d'optimisation basé sur le tas (HBO). Le HBO est utilisé avec un classificateur de k plus proche voisin dans un wrapper pour améliorer le processus FS. La performance de la méthode proposée est évaluée et comparée à sept approches dans la littérature qui sont appliquées sur neuf ensembles de données de grande dimension qui contiennent, un faible nombre d'échantillons et plusieurs classes. Les résultats révèlent que le HBO diminue le nombre de fonctionnalités pour les tâches de classification, et est capable d'atteindre une grande précision dans deux ensembles de données par rapport aux autres approches, le BHBO a atteint la meilleure vitesse de convergence par rapport aux méthodes concurrentes. Il est donc conclu que la méthode HBO proposée peut être utilisée pour optimiser le processus FS, que ce soit en termes de précision de classification ou de taille de sélection.

Translated Description (Spanish)

La selección de características abstractas (FS) es un paso importante de preprocesamiento que se ha utilizado comúnmente en varios campos para mejorar el rendimiento de los algoritmos de aprendizaje. En el campo de la minería de datos médicos, se utiliza una gran cantidad de características para diagnosticar enfermedades, pero estas características tienen muchas correlaciones débiles no relevantes y características redundantes, lo que causa una serie de problemas que afectan negativamente la precisión predictiva del diagnóstico. El trabajo en FS ha crecido ampliamente en muchos campos debido a la mayor demanda de métodos que pueden reducir la dimensionalidad de los datos al elegir el mejor subconjunto de características de acuerdo con criterios específicos para maximizar la precisión de la predicción y minimizar las características irrelevantes. En los últimos tiempos, se ha preferido la metaheurística sobre los métodos de optimización convencionales para resolver problemas de FS con el fin de tratar de obtener una solución casi óptima en un tiempo finito. Las metaheurísticas son algoritmos de propósito general que se pueden utilizar para resolver casi cualquier problema de optimización porque generan soluciones "apropiadas" en un tiempo razonable, lo que es especialmente útil cuando se busca resolver problemas complicados. Muchas implementaciones populares han demostrado la utilidad de la metaheurística de diferentes maneras al contrastar su rendimiento en problemas bien conocidos con el de otros algoritmos o aplicaciones. Hay muchos algoritmos metaheurísticos en la literatura, como los basados en la inteligencia de enjambres, incluidas las optimizaciones de enjambres de partículas y la optimización de colonias de hormigas. El objetivo principal de esta investigación es proporcionar un mayor grado de precisión para resolver problemas de FS mediante la realización de diferentes experimentos utilizando un algoritmo metaheurístico, a saber, el algoritmo optimizador basado en pila (HBO). El HBO se utiliza con un clasificador de k vecinos más cercanos en un contenedor para mejorar el proceso de FS. El rendimiento del método propuesto se evalúa y compara con siete enfoques en la literatura que se aplican en nueve conjuntos de datos de alta dimensión que contienen un bajo número de muestras y múltiples clases. Los hallazgos revelan que el HBO disminuye el número de características para las tareas de clasificación y es capaz de lograr una alta precisión en dos conjuntos de datos en comparación con los otros enfoques, el BHBO logró la mejor velocidad de convergencia en comparación con los métodos de la competencia. Por lo tanto, se concluye que el método de HBO propuesto se puede utilizar para optimizar el proceso de FS, ya sea en términos de precisión de clasificación o tamaño de selección.

Files

latest.pdf.pdf

Files (1.8 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:44b015e3e39fd705a23f49a2f18af164
1.8 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
خوارزمية المحسن القائم على كومة الذاكرة المؤقتة لحل مشكلات اختيار الميزات في بيانات المصفوفة الدقيقة عالية الأبعاد للسرطان
Translated title (French)
Algorithme d'optimisation basé sur un tas pour résoudre les problèmes de sélection de fonctionnalités dans les données de microréseaux cancéreux à haute dimension
Translated title (Spanish)
Algoritmo optimizador basado en pila para resolver problemas de selección de características en datos de micromatrices de cáncer de alta dimensión

Identifiers

Other
https://openalex.org/W4221082785
DOI
10.21203/rs.3.rs-1402946/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Jordan