Published March 4, 2024 | Version v1
Publication

Resampling strategies for imbalanced regression: a survey and empirical analysis

  • 1. Universidade Federal de Pernambuco
  • 2. École de Technologie Supérieure
  • 3. Université du Québec à Montréal

Description

Abstract Imbalanced problems can arise in different real-world situations, and to address this, certain strategies in the form of resampling or balancing algorithms are proposed. This issue has largely been studied in the context of classification, and yet, the same problem features in regression tasks, where target values are continuous. This work presents an extensive experimental study comprising various balancing and predictive models, and wich uses metrics to capture important elements for the user and to evaluate the predictive model in an imbalanced regression data context. It also proposes a taxonomy for imbalanced regression approaches based on three crucial criteria: regression model, learning process, and evaluation metrics. The study offers new insights into the use of such strategies, highlighting the advantages they bring to each model's learning process, and indicating directions for further studies. The code, data and further information related to the experiments performed herein can be found on GitHub: https://github.com/JusciAvelino/imbalancedRegression .

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يمكن أن تنشأ مشاكل غير متوازنة مجردة في مواقف مختلفة في العالم الحقيقي، ولمعالجة ذلك، يتم اقتراح استراتيجيات معينة في شكل خوارزميات إعادة أخذ العينات أو الموازنة. تمت دراسة هذه المشكلة إلى حد كبير في سياق التصنيف، ومع ذلك، فإن نفس المشكلة تظهر في مهام الانحدار، حيث تكون القيم المستهدفة مستمرة. يقدم هذا العمل دراسة تجريبية شاملة تضم نماذج موازنة وتنبؤية مختلفة، والتي تستخدم مقاييس لالتقاط العناصر المهمة للمستخدم وتقييم النموذج التنبئي في سياق بيانات الانحدار غير المتوازن. كما يقترح تصنيفًا لنهج الانحدار غير المتوازن بناءً على ثلاثة معايير حاسمة: نموذج الانحدار وعملية التعلم ومقاييس التقييم. تقدم الدراسة رؤى جديدة حول استخدام مثل هذه الاستراتيجيات، وتسلط الضوء على المزايا التي تجلبها لكل عملية تعلم نموذجية، وتشير إلى اتجاهات لمزيد من الدراسات. يمكن العثور على التعليمات البرمجية والبيانات والمزيد من المعلومات المتعلقة بالتجارب التي تم إجراؤها هنا على GitHub: https://github.com/JusciAvelino/imbalancedRegression .

Translated Description (French)

Résumé Des problèmes déséquilibrés peuvent survenir dans différentes situations du monde réel, et pour y remédier, certaines stratégies sous la forme d'algorithmes de ré-échantillonnage ou d'équilibrage sont proposées. Cette question a été largement étudiée dans le contexte de la classification, et pourtant, le même problème se pose dans les tâches de régression, où les valeurs cibles sont continues. Ce travail présente une étude expérimentale approfondie comprenant divers modèles d'équilibrage et prédictifs, et qui utilise des métriques pour capturer des éléments importants pour l'utilisateur et pour évaluer le modèle prédictif dans un contexte de données de régression déséquilibrées. Il propose également une taxonomie pour les approches de régression déséquilibrée basée sur trois critères cruciaux : le modèle de régression, le processus d'apprentissage et les métriques d'évaluation. L'étude offre de nouvelles perspectives sur l'utilisation de ces stratégies, en soulignant les avantages qu'elles apportent au processus d'apprentissage de chaque modèle et en indiquant les orientations pour d'autres études. Le code, les données et d'autres informations relatives aux expériences réalisées ici peuvent être trouvés sur GitHub : https://github.com/JusciAvelino/imbalancedRegression .

Translated Description (Spanish)

Resumen Los problemas de desequilibrio pueden surgir en diferentes situaciones del mundo real, y para abordar esto, se proponen ciertas estrategias en forma de algoritmos de remuestreo o equilibrio. Este problema se ha estudiado en gran medida en el contexto de la clasificación y, sin embargo, el mismo problema se presenta en las tareas de regresión, donde los valores objetivo son continuos. Este trabajo presenta un extenso estudio experimental que comprende varios modelos de equilibrio y predictivos, y que utiliza métricas para capturar elementos importantes para el usuario y evaluar el modelo predictivo en un contexto de datos de regresión desequilibrada. También propone una taxonomía para los enfoques de regresión desequilibrada basada en tres criterios cruciales: modelo de regresión, proceso de aprendizaje y métricas de evaluación. El estudio ofrece nuevos conocimientos sobre el uso de tales estrategias, destacando las ventajas que aportan al proceso de aprendizaje de cada modelo e indicando direcciones para futuros estudios. El código, los datos y la información adicional relacionada con los experimentos realizados en este documento se pueden encontrar en GitHub: https://github.com/JusciAvelino/imbalancedRegression .

Additional details

Additional titles

Translated title (Arabic)
استراتيجيات إعادة أخذ العينات للانحدار غير المتوازن: مسح وتحليل تجريبي
Translated title (French)
Ré-échantillonnage des stratégies de régression déséquilibrée : une enquête et une analyse empirique
Translated title (Spanish)
Estrategias de remuestreo para la regresión desequilibrada: una encuesta y un análisis empírico

Identifiers

Other
https://openalex.org/W4392401953
DOI
10.1007/s10462-024-10724-3

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Brazil

References

  • https://openalex.org/W1561774098
  • https://openalex.org/W1572134200
  • https://openalex.org/W1993220166
  • https://openalex.org/W2086610967
  • https://openalex.org/W2094529927
  • https://openalex.org/W2096045964
  • https://openalex.org/W2099454382
  • https://openalex.org/W2122591164
  • https://openalex.org/W2134857847
  • https://openalex.org/W2148143831
  • https://openalex.org/W2164330572
  • https://openalex.org/W2184648260
  • https://openalex.org/W2245138265
  • https://openalex.org/W2300921526
  • https://openalex.org/W2338318698
  • https://openalex.org/W2490420619
  • https://openalex.org/W2562319768
  • https://openalex.org/W2567530267
  • https://openalex.org/W2589114814
  • https://openalex.org/W2605932792
  • https://openalex.org/W2724708867
  • https://openalex.org/W2777539043
  • https://openalex.org/W2792895843
  • https://openalex.org/W2912895282
  • https://openalex.org/W2913403310
  • https://openalex.org/W2936503027
  • https://openalex.org/W2963687148
  • https://openalex.org/W2966679659
  • https://openalex.org/W2980424548
  • https://openalex.org/W3013472303
  • https://openalex.org/W3035711813
  • https://openalex.org/W3041245894
  • https://openalex.org/W3083510345
  • https://openalex.org/W3167186267
  • https://openalex.org/W3180281962
  • https://openalex.org/W3199166390
  • https://openalex.org/W3217458307
  • https://openalex.org/W4206009515
  • https://openalex.org/W4229889964
  • https://openalex.org/W4233030699
  • https://openalex.org/W4382516701
  • https://openalex.org/W70001371
  • https://openalex.org/W906603025