Unbiased Feature Selection in Learning Random Forests for High-Dimensional Data
- 1. Shenzhen Institutes of Advanced Technology
- 2. Chinese Academy of Sciences
- 3. University of Chinese Academy of Sciences
- 4. Thuyloi University
- 5. Shenzhen University
- 6. Vietnam National University of Agriculture
Description
Random forests (RFs) have been widely used as a powerful classification method. However, with the randomization in both bagging samples and feature selection, the trees in the forest tend to select uninformative features for node splitting. This makes RFs have poor accuracy when working with high-dimensional data. Besides that, RFs have bias in the feature selection process where multivalued features are favored. Aiming at debiasing feature selection in RFs, we propose a new RF algorithm, called xRF, to select good features in learning RFs for high-dimensional data. We first remove the uninformative features using p-value assessment, and the subset of unbiased features is then selected based on some statistical measures. This feature subset is then partitioned into two subsets. A feature weighting sampling technique is used to sample features from these two subsets for building trees. This approach enables one to generate more accurate trees, while allowing one to reduce dimensionality and the amount of data needed for learning RFs. An extensive set of experiments has been conducted on 47 high-dimensional real-world datasets including image datasets. The experimental results have shown that RFs with the proposed approach outperformed the existing random forests in increasing the accuracy and the AUC measures.
Translated Descriptions
Translated Description (Arabic)
تم استخدام الغابات العشوائية (RFs) على نطاق واسع كطريقة تصنيف قوية. ومع ذلك، مع التوزيع العشوائي في كل من عينات التعبئة واختيار الميزات، تميل الأشجار في الغابة إلى تحديد ميزات غير مفيدة لتقسيم العقدة. وهذا يجعل الترددات اللاسلكية ذات دقة ضعيفة عند العمل مع البيانات عالية الأبعاد. إلى جانب ذلك، فإن RFs لديها تحيز في عملية اختيار الميزات حيث يتم تفضيل الميزات متعددة القيم. بهدف تحديد ميزة التحيز في RFs، نقترح خوارزمية RF جديدة، تسمى xRF، لتحديد ميزات جيدة في تعلم RFs للبيانات عالية الأبعاد. نقوم أولاً بإزالة الميزات غير المفيدة باستخدام تقييم قيمة p، ثم يتم اختيار المجموعة الفرعية من الميزات غير المتحيزة بناءً على بعض المقاييس الإحصائية. ثم يتم تقسيم هذه المجموعة الفرعية للميزة إلى مجموعتين فرعيتين. يتم استخدام تقنية أخذ عينات ترجيح الميزة لأخذ عينات من الميزات من هاتين المجموعتين الفرعيتين لبناء الأشجار. يمكّن هذا النهج المرء من توليد أشجار أكثر دقة، مع السماح له بتقليل الأبعاد وكمية البيانات اللازمة لتعلم الترددات اللاسلكية. تم إجراء مجموعة واسعة من التجارب على 47 مجموعة بيانات عالية الأبعاد في العالم الحقيقي بما في ذلك مجموعات بيانات الصور. أظهرت النتائج التجريبية أن الترددات اللاسلكية مع النهج المقترح تفوقت على الغابات العشوائية الحالية في زيادة الدقة ومقاييس المساحة تحت المنحنى.Translated Description (French)
Les forêts aléatoires (RF) ont été largement utilisées comme méthode de classification puissante. Cependant, avec la randomisation dans les échantillons d'ensachage et la sélection des caractéristiques, les arbres de la forêt ont tendance à sélectionner des caractéristiques non informatives pour le fractionnement des nœuds. Cela fait que les RF ont une faible précision lorsque vous travaillez avec des données de grande dimension. En outre, les RF ont un biais dans le processus de sélection des fonctionnalités où les fonctionnalités à plusieurs valeurs sont favorisées. Dans le but de débiaiser la sélection de caractéristiques dans les RF, nous proposons un nouvel algorithme RF, appelé xRF, pour sélectionner les bonnes caractéristiques dans l'apprentissage des RF pour les données de grande dimension. Nous supprimons d'abord les caractéristiques non informatives à l'aide de l'évaluation de la valeur p, puis le sous-ensemble de caractéristiques non biaisées est sélectionné en fonction de certaines mesures statistiques. Ce sous-ensemble de fonctionnalités est ensuite divisé en deux sous-ensembles. Une technique d'échantillonnage de pondération des caractéristiques est utilisée pour échantillonner les caractéristiques de ces deux sous-ensembles pour la construction d'arbres. Cette approche permet de générer des arbres plus précis, tout en permettant de réduire la dimensionnalité et la quantité de données nécessaires à l'apprentissage des RF. Un vaste ensemble d'expériences a été mené sur 47 ensembles de données du monde réel à haute dimension, y compris des ensembles de données d'images. Les résultats expérimentaux ont montré que les RF avec l'approche proposée surpassaient les forêts aléatoires existantes en augmentant la précision et les mesures de l'AUC.Translated Description (Spanish)
Los bosques aleatorios (FR) se han utilizado ampliamente como un poderoso método de clasificación. Sin embargo, con la aleatorización tanto en las muestras de ensacado como en la selección de características, los árboles en el bosque tienden a seleccionar características no informativas para la división de nodos. Esto hace que las RF tengan poca precisión al trabajar con datos de alta dimensión. Además de eso, los RF tienen sesgos en el proceso de selección de características donde se favorecen las características multivaluadas. Con el objetivo de eliminar el sesgo de la selección de características en RF, proponemos un nuevo algoritmo de RF, llamado xRF, para seleccionar buenas características en el aprendizaje de RF para datos de alta dimensión. Primero eliminamos las características no informativas mediante la evaluación del valor p, y luego seleccionamos el subconjunto de características no sesgadas en función de algunas medidas estadísticas. Este subconjunto de características se divide en dos subconjuntos. Se utiliza una técnica de muestreo de ponderación de características para muestrear características de estos dos subconjuntos para construir árboles. Este enfoque permite generar árboles más precisos, al tiempo que permite reducir la dimensionalidad y la cantidad de datos necesarios para aprender RF. Se ha llevado a cabo un amplio conjunto de experimentos en 47 conjuntos de datos del mundo real de alta dimensión, incluidos conjuntos de datos de imágenes. Los resultados experimentales han demostrado que los FR con el enfoque propuesto superaron a los bosques aleatorios existentes en el aumento de la precisión y las medidas de AUC.Files
471371.pdf.pdf
Files
(16.0 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:473cae812a479e1b35cf5b9b0240e1da
|
16.0 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- اختيار الميزات غير المتحيزة في تعلم الغابات العشوائية للبيانات عالية الأبعاد
- Translated title (French)
- Sélection impartiale des caractéristiques dans l'apprentissage des forêts aléatoires pour les données de haute dimension
- Translated title (Spanish)
- Selección imparcial de características en el aprendizaje de bosques aleatorios para datos de alta dimensión
Identifiers
- Other
- https://openalex.org/W2030122595
- DOI
- 10.1155/2015/471371
References
- https://openalex.org/W1520812622
- https://openalex.org/W1605688901
- https://openalex.org/W165068132
- https://openalex.org/W1875061881
- https://openalex.org/W2005330159
- https://openalex.org/W2007448114
- https://openalex.org/W2022604714
- https://openalex.org/W2043175314
- https://openalex.org/W2044080809
- https://openalex.org/W2071817951
- https://openalex.org/W2072154218
- https://openalex.org/W2074388642
- https://openalex.org/W2113242816
- https://openalex.org/W2123921160
- https://openalex.org/W2138451337
- https://openalex.org/W2143481518
- https://openalex.org/W2155261478
- https://openalex.org/W2911964244