Published November 6, 2023 | Version v1
Publication Open

The effect of rebalancing techniques on the classification performance in cyberbullying datasets

  • 1. Minia University
  • 2. University of Sadat City

Description

Abstract Cyberbullying detection systems rely increasingly on machine learning techniques. However, class imbalance in cyberbullying datasets, where the percentage of normal labeled classes is higher than that of abnormal labeled ones, presents a significant challenge for classification algorithms. This issue is particularly problematic in two-class datasets, where conventional machine learning methods tend to perform poorly on minority class samples due to the influence of the majority class. To address this problem, researchers have proposed various oversampling and undersampling techniques. In this paper, we investigate the effectiveness of such techniques in addressing class imbalance in cyberbullying datasets. We conduct an experimental study that involves a preprocessing step to enhance machine learning algorithm performance. We then examine the impact of imbalanced data on classification performance for four cyberbullying datasets. To study the classification performance on balanced cyberbullying datasets, we employ four resampling techniques, namely random undersampling, random oversampling, SMOTE, and SMOTE + TOMEK. We evaluate the impact of each rebalancing technique on classification performance using eight well-known classification algorithms. Our findings demonstrate that the performance of resampling techniques depends on the dataset size, imbalance ratio, and classifier used. The conducted experiments proved that there are no techniques that will always perform better the others.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تعتمد أنظمة الكشف عن التنمر الإلكتروني بشكل متزايد على تقنيات التعلم الآلي. ومع ذلك، فإن الاختلال الطبقي في مجموعات بيانات التنمر الإلكتروني، حيث تكون النسبة المئوية للفئات العادية المصنفة أعلى من الفئات غير الطبيعية المصنفة، يمثل تحديًا كبيرًا لخوارزميات التصنيف. هذه المشكلة إشكالية بشكل خاص في مجموعات البيانات ذات الفئتين، حيث تميل أساليب التعلم الآلي التقليدية إلى الأداء الضعيف على عينات فئة الأقلية بسبب تأثير فئة الأغلبية. ولمعالجة هذه المشكلة، اقترح الباحثون تقنيات مختلفة للإفراط في أخذ العينات ونقصها. في هذه الورقة، نقوم بالتحقيق في فعالية مثل هذه التقنيات في معالجة عدم التوازن الطبقي في مجموعات بيانات التنمر الإلكتروني. نجري دراسة تجريبية تتضمن خطوة معالجة مسبقة لتعزيز أداء خوارزمية التعلم الآلي. ثم ندرس تأثير البيانات غير المتوازنة على أداء التصنيف لأربع مجموعات بيانات للتنمر الإلكتروني. لدراسة أداء التصنيف على مجموعات بيانات البلطجة الإلكترونية المتوازنة، نستخدم أربع تقنيات لإعادة أخذ العينات، وهي أخذ العينات الناقصة العشوائية، وأخذ العينات الزائدة العشوائية، و SMOTE، و SMOTE + TOMEK. نقوم بتقييم تأثير كل تقنية إعادة توازن على أداء التصنيف باستخدام ثماني خوارزميات تصنيف معروفة. توضح النتائج التي توصلنا إليها أن أداء تقنيات إعادة أخذ العينات يعتمد على حجم مجموعة البيانات ونسبة عدم التوازن والمصنف المستخدم. أثبتت التجارب التي أجريت أنه لا توجد تقنيات من شأنها أن تؤدي دائمًا بشكل أفضل التقنيات الأخرى.

Translated Description (French)

Résumé Les systèmes de détection de la cyberintimidation s'appuient de plus en plus sur des techniques d'apprentissage automatique. Cependant, le déséquilibre des classes dans les ensembles de données sur la cyberintimidation, où le pourcentage de classes étiquetées normales est supérieur à celui des classes étiquetées anormales, présente un défi important pour les algorithmes de classification. Ce problème est particulièrement problématique dans les ensembles de données à deux classes, où les méthodes d'apprentissage automatique conventionnelles ont tendance à mal fonctionner sur les échantillons des classes minoritaires en raison de l'influence de la classe majoritaire. Pour résoudre ce problème, les chercheurs ont proposé diverses techniques de suréchantillonnage et de sous-échantillonnage. Dans cet article, nous étudions l'efficacité de ces techniques pour remédier au déséquilibre des classes dans les ensembles de données sur la cyberintimidation. Nous menons une étude expérimentale qui implique une étape de prétraitement pour améliorer les performances de l'algorithme d'apprentissage automatique. Nous examinons ensuite l'impact des données déséquilibrées sur les performances de classification de quatre ensembles de données sur la cyberintimidation. Pour étudier les performances de classification sur des ensembles de données équilibrés sur la cyberintimidation, nous utilisons quatre techniques de rééchantillonnage, à savoir le sous-échantillonnage aléatoire, le suréchantillonnage aléatoire, le smote et le smote + TOMEK. Nous évaluons l'impact de chaque technique de rééquilibrage sur les performances de classification à l'aide de huit algorithmes de classification bien connus. Nos résultats démontrent que la performance des techniques de rééchantillonnage dépend de la taille de l'ensemble de données, du rapport de déséquilibre et du classificateur utilisé. Les expériences menées ont prouvé qu'il n'y a pas de techniques qui seront toujours plus performantes que les autres.

Translated Description (Spanish)

Resumen Los sistemas de detección de ciberacoso se basan cada vez más en técnicas de aprendizaje automático. Sin embargo, el desequilibrio de clases en los conjuntos de datos de ciberacoso, donde el porcentaje de clases etiquetadas normales es mayor que el de las etiquetadas anormales, presenta un desafío significativo para los algoritmos de clasificación. Este problema es particularmente problemático en conjuntos de datos de dos clases, donde los métodos convencionales de aprendizaje automático tienden a tener un rendimiento deficiente en muestras de clases minoritarias debido a la influencia de la clase mayoritaria. Para abordar este problema, los investigadores han propuesto varias técnicas de sobremuestreo y submuestreo. En este documento, investigamos la efectividad de tales técnicas para abordar el desequilibrio de clases en los conjuntos de datos de ciberacoso. Realizamos un estudio experimental que implica un paso de preprocesamiento para mejorar el rendimiento del algoritmo de aprendizaje automático. A continuación, examinamos el impacto de los datos desequilibrados en el rendimiento de la clasificación para cuatro conjuntos de datos de ciberacoso. Para estudiar el rendimiento de la clasificación en conjuntos de datos equilibrados de ciberacoso, empleamos cuatro técnicas de remuestreo, a saber, submuestreo aleatorio, sobremuestreo aleatorio, SMOTE y SMOTE + TOMEK. Evaluamos el impacto de cada técnica de reequilibrio en el rendimiento de la clasificación utilizando ocho algoritmos de clasificación bien conocidos. Nuestros hallazgos demuestran que el rendimiento de las técnicas de remuestreo depende del tamaño del conjunto de datos, la relación de desequilibrio y el clasificador utilizado. Los experimentos realizados demostraron que no hay técnicas que siempre funcionen mejor que las demás.

Files

s00521-023-09084-w.pdf.pdf

Files (486.4 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:f1643990d18e3c16bb8940c71afd66cd
486.4 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تأثير تقنيات إعادة التوازن على أداء التصنيف في مجموعات بيانات التنمر الإلكتروني
Translated title (French)
L'effet des techniques de rééquilibrage sur la performance de classification dans les ensembles de données sur la cyberintimidation
Translated title (Spanish)
El efecto de las técnicas de reequilibrio en el rendimiento de la clasificación en los conjuntos de datos de ciberacoso

Identifiers

Other
https://openalex.org/W4388418482
DOI
10.1007/s00521-023-09084-w

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Egypt

References

  • https://openalex.org/W1492737170
  • https://openalex.org/W1529097724
  • https://openalex.org/W1619992285
  • https://openalex.org/W1638813654
  • https://openalex.org/W2023847169
  • https://openalex.org/W2034757259
  • https://openalex.org/W2044173330
  • https://openalex.org/W2119168155
  • https://openalex.org/W2128965734
  • https://openalex.org/W2148143831
  • https://openalex.org/W2259779547
  • https://openalex.org/W2416164492
  • https://openalex.org/W2510271005
  • https://openalex.org/W2583149885
  • https://openalex.org/W2780119742
  • https://openalex.org/W2789671692
  • https://openalex.org/W2803590506
  • https://openalex.org/W2900491514
  • https://openalex.org/W2904937466
  • https://openalex.org/W2956932432
  • https://openalex.org/W2963331533
  • https://openalex.org/W2981921704
  • https://openalex.org/W3010926394
  • https://openalex.org/W3041485550
  • https://openalex.org/W3090444825
  • https://openalex.org/W3096306582
  • https://openalex.org/W3103335742
  • https://openalex.org/W3154302539
  • https://openalex.org/W3190941513
  • https://openalex.org/W4230870088
  • https://openalex.org/W4232149520
  • https://openalex.org/W4250685065
  • https://openalex.org/W4283274834
  • https://openalex.org/W4313555233
  • https://openalex.org/W4315607636
  • https://openalex.org/W4321460235
  • https://openalex.org/W4363674670
  • https://openalex.org/W4378364728
  • https://openalex.org/W996801710