A Review and Experimental Comparison of Multivariate Decision Trees
- 1. Tecnológico de Monterrey
Description
Decision trees are popular as stand-alone classifiers or as base learners in ensemble classifiers. Mostly, this is due to decision trees having the advantage of being easy to explain. To improve the classification performance of decision trees, some authors have used Multivariate Decision Trees (MDTs), which allow combinations of features when splitting a node. While there is growing interest in the area, recent research in MDTs all have in common that they do not provide adequate comparison of related work: they do not consider relevant rival techniques, or they test algorithm performance in an insufficient number of databases. As a result, claims have no statistical sustain and, hence, there is a lack of general understanding of the actual capabilities of existing MDT induction algorithms, crucial to improving the state-of-the-art. In this paper, we report on an exhaustive review of MDTs. In particular, we give an overview of 37 MDT induction algorithms, out of which we have experimentally compared 19 of them in 57 databases. We provide a statistical comparison in all databases and subsets of databases according to the number of classes, number of features, number of instances, and degree of class imbalance. This allows us to identify groups of top-performing algorithms for different types of databases.
Translated Descriptions
Translated Description (Arabic)
تحظى أشجار القرار بشعبية كمصنفات قائمة بذاتها أو كمتعلمين أساسيين في مصنفات المجموعة. في الغالب، يرجع ذلك إلى أن أشجار القرار تتمتع بميزة كونها سهلة التفسير. لتحسين أداء تصنيف أشجار القرار، استخدم بعض المؤلفين أشجار القرار متعددة المتغيرات (MDTs)، والتي تسمح بمزيج من الميزات عند تقسيم العقدة. في حين أن هناك اهتمامًا متزايدًا في هذا المجال، فإن الأبحاث الحديثة في MDTs تشترك جميعها في أنها لا توفر مقارنة كافية للعمل ذي الصلة: فهي لا تأخذ في الاعتبار التقنيات المنافسة ذات الصلة، أو تختبر أداء الخوارزمية في عدد غير كافٍ من قواعد البيانات. ونتيجة لذلك، لا تتمتع المطالبات بدعم إحصائي، وبالتالي، هناك نقص في الفهم العام للقدرات الفعلية لخوارزميات تحريض MDT الحالية، وهو أمر بالغ الأهمية لتحسين أحدث ما توصلت إليه التكنولوجيا. في هذه الورقة، نبلغ عن مراجعة شاملة لـ MDTs. على وجه الخصوص، نقدم نظرة عامة على 37 خوارزمية تحريض MDT، منها قمنا بمقارنة 19 منها تجريبيًا في 57 قاعدة بيانات. نحن نقدم مقارنة إحصائية في جميع قواعد البيانات والمجموعات الفرعية لقواعد البيانات وفقًا لعدد الفئات وعدد الميزات وعدد الحالات ودرجة عدم التوازن في الفئة. يتيح لنا ذلك تحديد مجموعات من الخوارزميات عالية الأداء لأنواع مختلفة من قواعد البيانات.Translated Description (French)
Les arbres de décision sont populaires en tant que classificateurs autonomes ou en tant qu'apprenants de base dans les classificateurs d'ensemble. Cela est principalement dû au fait que les arbres de décision ont l'avantage d'être faciles à expliquer. Pour améliorer les performances de classification des arbres de décision, certains auteurs ont utilisé des arbres de décision multivariés (MDT), qui permettent des combinaisons de caractéristiques lors de la division d'un nœud. Bien qu'il y ait un intérêt croissant dans le domaine, les recherches récentes sur les TDM ont toutes en commun qu'elles ne fournissent pas une comparaison adéquate des travaux connexes : elles ne tiennent pas compte des techniques concurrentes pertinentes, ou elles testent les performances de l'algorithme dans un nombre insuffisant de bases de données. En conséquence, les allégations n'ont pas de support statistique et, par conséquent, il y a un manque de compréhension générale des capacités réelles des algorithmes d'induction MDT existants, essentiels pour améliorer l'état de l'art. Dans cet article, nous présentons un examen exhaustif des EDM. En particulier, nous donnons un aperçu de 37 algorithmes d'induction MDT, dont nous avons comparé expérimentalement 19 d'entre eux dans 57 bases de données. Nous fournissons une comparaison statistique dans toutes les bases de données et sous-ensembles de bases de données en fonction du nombre de classes, du nombre de fonctionnalités, du nombre d'instances et du degré de déséquilibre des classes. Cela nous permet d'identifier des groupes d'algorithmes les plus performants pour différents types de bases de données.Translated Description (Spanish)
Los árboles de decisión son populares como clasificadores independientes o como aprendices básicos en clasificadores conjuntos. Principalmente, esto se debe a que los árboles de decisión tienen la ventaja de ser fáciles de explicar. Para mejorar el rendimiento de la clasificación de los árboles de decisión, algunos autores han utilizado árboles de decisión multivariados (MDT), que permiten combinaciones de características al dividir un nodo. Si bien existe un interés creciente en el área, las investigaciones recientes en MDT tienen en común que no proporcionan una comparación adecuada del trabajo relacionado: no consideran técnicas rivales relevantes o prueban el rendimiento del algoritmo en un número insuficiente de bases de datos. Como resultado, las afirmaciones no tienen sustento estadístico y, por lo tanto, hay una falta de comprensión general de las capacidades reales de los algoritmos de inducción MDT existentes, cruciales para mejorar el estado de la técnica. En este documento, informamos sobre una revisión exhaustiva de los MDT. En particular, damos una visión general de 37 algoritmos de inducción de MDT, de los cuales hemos comparado experimentalmente 19 de ellos en 57 bases de datos. Proporcionamos una comparación estadística en todas las bases de datos y subconjuntos de bases de datos de acuerdo con el número de clases, el número de características, el número de instancias y el grado de desequilibrio de clases. Esto nos permite identificar grupos de algoritmos de alto rendimiento para diferentes tipos de bases de datos.Files
09505668.pdf.pdf
Files
(245 Bytes)
Name | Size | Download all |
---|---|---|
md5:340c76be0e3ee983ec3e1743220d6559
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- مراجعة ومقارنة تجريبية لأشجار القرار متعددة المتغيرات
- Translated title (French)
- Un examen et une comparaison expérimentale des arbres de décision multivariés
- Translated title (Spanish)
- Una revisión y comparación experimental de árboles de decisión multivariados
Identifiers
- Other
- https://openalex.org/W3189177807
- DOI
- 10.1109/access.2021.3102239
References
- https://openalex.org/W13188192
- https://openalex.org/W1519043595
- https://openalex.org/W1527599281
- https://openalex.org/W1575173659
- https://openalex.org/W1783003885
- https://openalex.org/W1968634870
- https://openalex.org/W1968817125
- https://openalex.org/W1969242410
- https://openalex.org/W1979205968
- https://openalex.org/W1981039744
- https://openalex.org/W1982525872
- https://openalex.org/W2001892943
- https://openalex.org/W2004670864
- https://openalex.org/W2006251480
- https://openalex.org/W2017900294
- https://openalex.org/W2026824186
- https://openalex.org/W2029606207
- https://openalex.org/W2036620881
- https://openalex.org/W2037760741
- https://openalex.org/W2072154218
- https://openalex.org/W2074112114
- https://openalex.org/W2074166357
- https://openalex.org/W2079109804
- https://openalex.org/W2085770564
- https://openalex.org/W2086685817
- https://openalex.org/W2096166399
- https://openalex.org/W2103459159
- https://openalex.org/W2123199310
- https://openalex.org/W2125055259
- https://openalex.org/W2131251724
- https://openalex.org/W2142260217
- https://openalex.org/W2145649595
- https://openalex.org/W2146619110
- https://openalex.org/W2146831490
- https://openalex.org/W2149376583
- https://openalex.org/W2152799677
- https://openalex.org/W2157121776
- https://openalex.org/W2163358443
- https://openalex.org/W2165238223
- https://openalex.org/W2170457874
- https://openalex.org/W2188236168
- https://openalex.org/W2298860367
- https://openalex.org/W2304993808
- https://openalex.org/W2400258782
- https://openalex.org/W2580550754
- https://openalex.org/W2604504584
- https://openalex.org/W2604736517
- https://openalex.org/W2612932006
- https://openalex.org/W2691984185
- https://openalex.org/W2757686304
- https://openalex.org/W2789468576
- https://openalex.org/W2911964244
- https://openalex.org/W2912391306
- https://openalex.org/W2944557777
- https://openalex.org/W2951539267
- https://openalex.org/W2981083866
- https://openalex.org/W2981836045
- https://openalex.org/W2982460336
- https://openalex.org/W2999337765
- https://openalex.org/W3000523276
- https://openalex.org/W3011442134
- https://openalex.org/W3029464237
- https://openalex.org/W3037260875
- https://openalex.org/W3102476541
- https://openalex.org/W3105728206
- https://openalex.org/W3120740533
- https://openalex.org/W3125630007
- https://openalex.org/W4230946174
- https://openalex.org/W4232814967
- https://openalex.org/W4248455063
- https://openalex.org/W4285719527
- https://openalex.org/W4301186107
- https://openalex.org/W767037412
- https://openalex.org/W80760317
- https://openalex.org/W94571269