A Hybrid Approach Using Oversampling Technique and Cost-Sensitive Learning for Bankruptcy Prediction
- 1. Sejong University
- 2. Duy Tan University
- 3. Ho Chi Minh City University of Technology
Description
The diagnosis of bankruptcy companies becomes extremely important for business owners, banks, governments, securities investors, and economic stakeholders to optimize the profitability as well as to minimize risks of investments. Many studies have been developed for bankruptcy prediction utilizing different machine learning approaches on various datasets around the world. Due to the class imbalance problem occurring in the bankruptcy datasets, several special techniques would be used to improve the prediction performance. Oversampling technique and cost-sensitive learning framework are two common methods for dealing with class imbalance problem. Using oversampling techniques and cost-sensitive learning framework independently also improves predictability. However, for datasets with very small balancing ratios, combining two above techniques will produce the better results. Therefore, this study develops a hybrid approach using oversampling technique and cost-sensitive learning, namely, HAOC for bankruptcy prediction on the Korean Bankruptcy dataset. The first module of HAOC is oversampling module with an optimal balancing ratio found in the first experiment that will give the best overall performance for the validation set. Then, the second module uses the cost-sensitive learning model, namely, CBoost algorithm to bankruptcy prediction. The experimental results show that HAOC will give the best performance value for bankruptcy prediction compared with the existing approaches.
Translated Descriptions
Translated Description (Arabic)
يصبح تشخيص شركات الإفلاس في غاية الأهمية لأصحاب الأعمال والبنوك والحكومات ومستثمري الأوراق المالية وأصحاب المصلحة الاقتصاديين لتحسين الربحية وكذلك لتقليل مخاطر الاستثمارات. تم تطوير العديد من الدراسات للتنبؤ بالإفلاس باستخدام مناهج مختلفة للتعلم الآلي على مجموعات بيانات مختلفة في جميع أنحاء العالم. نظرًا لمشكلة اختلال التوازن الطبقي التي تحدث في مجموعات بيانات الإفلاس، سيتم استخدام العديد من التقنيات الخاصة لتحسين أداء التنبؤ. تقنية أخذ العينات الزائدة وإطار التعلم الحساس للتكلفة هما طريقتان شائعتان للتعامل مع مشكلة عدم التوازن في الفصل. كما يؤدي استخدام تقنيات أخذ العينات الزائدة وإطار التعلم الحساس للتكلفة بشكل مستقل إلى تحسين القدرة على التنبؤ. ومع ذلك، بالنسبة لمجموعات البيانات ذات نسب التوازن الصغيرة جدًا، فإن الجمع بين تقنيتين أعلاه سيؤدي إلى نتائج أفضل. لذلك، تطور هذه الدراسة نهجًا هجينًا باستخدام تقنية أخذ العينات الزائدة والتعلم الحساس للتكلفة، أي HAOC للتنبؤ بالإفلاس في مجموعة بيانات الإفلاس الكورية. الوحدة الأولى من HAOC هي وحدة فرط أخذ العينات مع نسبة توازن مثالية موجودة في التجربة الأولى والتي ستعطي أفضل أداء عام لمجموعة التحقق من الصحة. بعد ذلك، تستخدم الوحدة الثانية نموذج التعلم الحساس للتكلفة، أي خوارزمية CBoost للتنبؤ بالإفلاس. تظهر النتائج التجريبية أن HAOC ستعطي أفضل قيمة أداء للتنبؤ بالإفلاس مقارنة بالنهج الحالية.Translated Description (French)
Le diagnostic des sociétés en faillite devient extrêmement important pour les propriétaires d'entreprise, les banques, les gouvernements, les investisseurs en valeurs mobilières et les acteurs économiques afin d'optimiser la rentabilité et de minimiser les risques liés aux investissements. De nombreuses études ont été développées pour la prédiction des faillites en utilisant différentes approches d'apprentissage automatique sur divers ensembles de données à travers le monde. En raison du problème de déséquilibre de classe survenant dans les ensembles de données de faillite, plusieurs techniques spéciales seraient utilisées pour améliorer les performances de prédiction. La technique de suréchantillonnage et le cadre d'apprentissage sensible aux coûts sont deux méthodes courantes pour traiter le problème du déséquilibre des classes. L'utilisation indépendante de techniques de suréchantillonnage et d'un cadre d'apprentissage sensible aux coûts améliore également la prévisibilité. Cependant, pour les ensembles de données avec de très petits ratios d'équilibrage, la combinaison des deux techniques ci-dessus produira les meilleurs résultats. Par conséquent, cette étude développe une approche hybride utilisant une technique de suréchantillonnage et un apprentissage sensible aux coûts, à savoir le HAOC pour la prédiction des faillites sur l'ensemble de données coréennes sur les faillites. Le premier module de HAOC est un module de suréchantillonnage avec un rapport d'équilibrage optimal trouvé dans la première expérience qui donnera la meilleure performance globale pour l'ensemble de validation. Ensuite, le deuxième module utilise le modèle d'apprentissage sensible aux coûts, à savoir l'algorithme CBoost pour prédire la faillite. Les résultats expérimentaux montrent que HAOC donnera la meilleure valeur de performance pour la prédiction de la faillite par rapport aux approches existantes.Translated Description (Spanish)
El diagnóstico de las empresas en quiebra se vuelve extremadamente importante para los propietarios de negocios, bancos, gobiernos, inversores de valores y partes interesadas económicas para optimizar la rentabilidad y minimizar los riesgos de las inversiones. Se han desarrollado muchos estudios para la predicción de quiebras utilizando diferentes enfoques de aprendizaje automático en varios conjuntos de datos en todo el mundo. Debido al problema de desequilibrio de clases que se produce en los conjuntos de datos de quiebra, se utilizarían varias técnicas especiales para mejorar el rendimiento de la predicción. La técnica de sobremuestreo y el marco de aprendizaje sensible a los costos son dos métodos comunes para tratar el problema del desequilibrio de clases. El uso de técnicas de sobremuestreo y un marco de aprendizaje sensible a los costos de forma independiente también mejora la previsibilidad. Sin embargo, para conjuntos de datos con proporciones de equilibrio muy pequeñas, la combinación de las dos técnicas anteriores producirá los mejores resultados. Por lo tanto, este estudio desarrolla un enfoque híbrido utilizando una técnica de sobremuestreo y un aprendizaje sensible a los costos, a saber, HAOC para la predicción de quiebras en el conjunto de datos de quiebras de Corea. El primer módulo de HAOC es el módulo de sobremuestreo con una relación de equilibrio óptima encontrada en el primer experimento que dará el mejor rendimiento general para el conjunto de validación. Luego, el segundo módulo utiliza el modelo de aprendizaje sensible a los costos, a saber, el algoritmo CBoost para la predicción de bancarrota. Los resultados experimentales muestran que HAOC dará el mejor valor de rendimiento para la predicción de bancarrota en comparación con los enfoques existentes.Files
8460934.pdf.pdf
Files
(15.9 kB)
Name | Size | Download all |
---|---|---|
md5:63c4108f53499789d90a2251096f59f8
|
15.9 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- نهج هجين باستخدام تقنية أخذ العينات الزائدة والتعلم الحساس من حيث التكلفة للتنبؤ بالإفلاس
- Translated title (French)
- Une approche hybride utilisant une technique de suréchantillonnage et un apprentissage sensible aux coûts pour la prévision des faillites
- Translated title (Spanish)
- Un enfoque híbrido que utiliza la técnica de sobremuestreo y el aprendizaje sensible a los costes para la predicción de la quiebra
Identifiers
- Other
- https://openalex.org/W2966800547
- DOI
- 10.1155/2019/8460934
References
- https://openalex.org/W1607624180
- https://openalex.org/W1977024080
- https://openalex.org/W1993220166
- https://openalex.org/W2071666497
- https://openalex.org/W2095148636
- https://openalex.org/W2099454382
- https://openalex.org/W2123458540
- https://openalex.org/W2148143831
- https://openalex.org/W2157751754
- https://openalex.org/W2319270064
- https://openalex.org/W2529556398
- https://openalex.org/W2596553710
- https://openalex.org/W2599557761
- https://openalex.org/W2606176882
- https://openalex.org/W2606916050
- https://openalex.org/W2612634114
- https://openalex.org/W2613683361
- https://openalex.org/W2626272376
- https://openalex.org/W2750105184
- https://openalex.org/W2750691257
- https://openalex.org/W2754969470
- https://openalex.org/W2766555770
- https://openalex.org/W2767352826
- https://openalex.org/W2788654106
- https://openalex.org/W2792851199
- https://openalex.org/W2794107182
- https://openalex.org/W2797116486
- https://openalex.org/W2808226709
- https://openalex.org/W2890962282
- https://openalex.org/W2908758572
- https://openalex.org/W2923711703
- https://openalex.org/W2943007873
- https://openalex.org/W2946304729
- https://openalex.org/W2952897804
- https://openalex.org/W4256065451