Improving spam email classification accuracy using ensemble techniques: a stacking approach
- 1. UiT The Arctic University of Norway
- 2. Air University
Description
Abstract Spam emails pose a substantial cybersecurity danger, necessitating accurate classification to reduce unwanted messages and mitigate risks. This study focuses on enhancing spam email classification accuracy using stacking ensemble machine learning techniques. We trained and tested five classifiers: logistic regression, decision tree, K-nearest neighbors (KNN), Gaussian naive Bayes and AdaBoost. To address overfitting, two distinct datasets of spam emails were aggregated and balanced. Evaluating individual classifiers based on recall, precision and F1 score metrics revealed AdaBoost as the top performer. Considering evolving spam technology and new message types challenging traditional approaches, we propose a stacking method. By combining predictions from multiple base models, the stacking method aims to improve classification accuracy. The results demonstrate superior performance of the stacking method with the highest accuracy (98.8%), recall (98.8%) and F1 score (98.9%) among tested methods. Additional experiments validated our approach by varying dataset sizes and testing different classifier combinations. Our study presents an innovative combination of classifiers that significantly improves accuracy, contributing to the growing body of research on stacking techniques. Moreover, we compare classifier performances using a unique combination of two datasets, highlighting the potential of ensemble techniques, specifically stacking, in enhancing spam email classification accuracy. The implications extend beyond spam classification systems, offering insights applicable to other classification tasks. Continued research on emerging spam techniques is vital to ensure long-term effectiveness.
Translated Descriptions
Translated Description (Arabic)
تشكل رسائل البريد الإلكتروني غير المرغوب فيها خطرًا كبيرًا على الأمن السيبراني، مما يستلزم تصنيفًا دقيقًا لتقليل الرسائل غير المرغوب فيها والتخفيف من المخاطر. تركز هذه الدراسة على تعزيز دقة تصنيف البريد الإلكتروني العشوائي باستخدام تقنيات التعلم الآلي لمجموعات التراص. قمنا بتدريب واختبار خمسة مصنفات: الانحدار اللوجستي، شجرة القرار، أقرب الجيران (KNN)، Gaussian naive Bayes و AdaBoost. لمعالجة الإفراط في التركيب، تم تجميع مجموعتي بيانات متميزتين من رسائل البريد الإلكتروني غير المرغوب فيها وتوازنهما. أظهر تقييم المصنفين الفرديين بناءً على مقاييس التذكر والدقة ودرجة F1 أن AdaBoost هو الأفضل أداءً. بالنظر إلى تقنية الرسائل غير المرغوب فيها المتطورة وأنواع الرسائل الجديدة التي تتحدى الأساليب التقليدية، نقترح طريقة تكديس. من خلال الجمع بين التنبؤات من نماذج أساسية متعددة، تهدف طريقة التكديس إلى تحسين دقة التصنيف. أظهرت النتائج أداءً فائقًا لطريقة التكديس بأعلى دقة (98.8 ٪)، والتذكر (98.8 ٪) ودرجة F1 (98.9 ٪) بين الطرق التي تم اختبارها. أثبتت تجارب إضافية صحة نهجنا من خلال تغيير أحجام مجموعات البيانات واختبار مجموعات المصنفات المختلفة. تقدم دراستنا مزيجًا مبتكرًا من المصنفات التي تحسن الدقة بشكل كبير، مما يساهم في مجموعة متزايدة من الأبحاث حول تقنيات التكديس. علاوة على ذلك، نقارن أداء المصنف باستخدام مزيج فريد من مجموعتي بيانات، مع تسليط الضوء على إمكانات تقنيات التجميع، وتحديدًا التكديس، في تعزيز دقة تصنيف البريد الإلكتروني غير المرغوب فيه. تمتد الآثار إلى ما هو أبعد من أنظمة تصنيف الرسائل غير المرغوب فيها، حيث تقدم رؤى تنطبق على مهام التصنيف الأخرى. يعد البحث المستمر حول تقنيات البريد العشوائي الناشئة أمرًا حيويًا لضمان الفعالية على المدى الطويل.Translated Description (French)
Les e-mails de spam abstraits représentent un danger important pour la cybersécurité, nécessitant une classification précise pour réduire les messages indésirables et atténuer les risques. Cette étude se concentre sur l'amélioration de la précision de la classification des courriels indésirables à l'aide de techniques d'apprentissage automatique par empilement. Nous avons formé et testé cinq classificateurs : régression logistique, arbre de décision, K-voisins les plus proches (KNN), Bayes naïf gaussien et AdaBoost. Pour remédier au surajustement, deux ensembles de données distincts d'e-mails de spam ont été agrégés et équilibrés. L'évaluation des classificateurs individuels en fonction du rappel, de la précision et des mesures de score F1 a révélé qu'AdaBoost était le plus performant. Compte tenu de l'évolution de la technologie du spam et des nouveaux types de messages qui remettent en question les approches traditionnelles, nous proposons une méthode d'empilement. En combinant les prédictions de plusieurs modèles de base, la méthode d'empilement vise à améliorer la précision de la classification. Les résultats démontrent des performances supérieures de la méthode d'empilage avec la plus grande précision (98,8 %), le rappel (98,8 %) et le score F1 (98,9 %) parmi les méthodes testées. Des expériences supplémentaires ont validé notre approche en faisant varier la taille des ensembles de données et en testant différentes combinaisons de classificateurs. Notre étude présente une combinaison innovante de classificateurs qui améliore considérablement la précision, contribuant ainsi au corpus croissant de recherches sur les techniques d'empilement. De plus, nous comparons les performances du classificateur en utilisant une combinaison unique de deux ensembles de données, mettant en évidence le potentiel des techniques d'ensemble, en particulier l'empilement, pour améliorer la précision de la classification des courriers indésirables. Les implications s'étendent au-delà des systèmes de classification des pourriels, offrant des informations applicables à d'autres tâches de classification. Une recherche continue sur les nouvelles techniques de spam est essentielle pour assurer une efficacité à long terme.Translated Description (Spanish)
Los correos electrónicos spam abstractos representan un peligro sustancial para la ciberseguridad, lo que requiere una clasificación precisa para reducir los mensajes no deseados y mitigar los riesgos. Este estudio se centra en mejorar la precisión de la clasificación de correo electrónico no deseado utilizando técnicas de aprendizaje automático de conjunto de apilamiento. Capacitamos y probamos cinco clasificadores: regresión logística, árbol de decisiones, vecinos K más cercanos (KNN), Bayes ingenuo gaussiano y AdaBoost. Para abordar el sobreajuste, se agregaron y equilibraron dos conjuntos de datos distintos de correos electrónicos no deseados. La evaluación de los clasificadores individuales en función de las métricas de recuperación, precisión y puntuación F1 reveló que AdaBoost era el de mejor rendimiento. Teniendo en cuenta la evolución de la tecnología de spam y los nuevos tipos de mensajes que desafían los enfoques tradicionales, proponemos un método de apilamiento. Al combinar predicciones de múltiples modelos base, el método de apilamiento tiene como objetivo mejorar la precisión de la clasificación. Los resultados demuestran un rendimiento superior del método de apilamiento con la mayor precisión (98.8%), recordación (98.8%) y puntuación F1 (98.9%) entre los métodos probados. Experimentos adicionales validaron nuestro enfoque variando los tamaños de los conjuntos de datos y probando diferentes combinaciones de clasificadores. Nuestro estudio presenta una combinación innovadora de clasificadores que mejora significativamente la precisión, lo que contribuye al creciente cuerpo de investigación sobre técnicas de apilamiento. Además, comparamos el rendimiento de los clasificadores utilizando una combinación única de dos conjuntos de datos, destacando el potencial de las técnicas de conjunto, específicamente el apilamiento, para mejorar la precisión de la clasificación del correo electrónico no deseado. Las implicaciones se extienden más allá de los sistemas de clasificación de spam, ofreciendo información aplicable a otras tareas de clasificación. La investigación continua sobre las técnicas emergentes de spam es vital para garantizar la efectividad a largo plazo.Files
      
        s10207-023-00756-1.pdf.pdf
        
      
    
    
      
        Files
         (1.6 MB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:e2016b9bf898680a843d78ef19f3daa7 | 1.6 MB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- تحسين دقة تصنيف البريد الإلكتروني العشوائي باستخدام تقنيات التجميع: نهج التكديس
- Translated title (French)
- Améliorer la précision de la classification des courriels indésirables à l'aide de techniques d'ensemble : une approche d'empilement
- Translated title (Spanish)
- Mejorar la precisión de la clasificación del correo electrónico no deseado utilizando técnicas de conjunto: un enfoque de apilamiento
Identifiers
- Other
- https://openalex.org/W4386897488
- DOI
- 10.1007/s10207-023-00756-1
            
              References
            
          
        - https://openalex.org/W1503398984
- https://openalex.org/W1988790447
- https://openalex.org/W1989284546
- https://openalex.org/W2020648356
- https://openalex.org/W2095195675
- https://openalex.org/W2165701072
- https://openalex.org/W2170505850
- https://openalex.org/W2193428859
- https://openalex.org/W2478192814
- https://openalex.org/W2567149662
- https://openalex.org/W2901750264
- https://openalex.org/W2965813329
- https://openalex.org/W3003185269
- https://openalex.org/W3003892205
- https://openalex.org/W3011776577
- https://openalex.org/W3082772432
- https://openalex.org/W3085571720
- https://openalex.org/W3088799805
- https://openalex.org/W3111611562
- https://openalex.org/W3113519107
- https://openalex.org/W3123084617
- https://openalex.org/W3130732469
- https://openalex.org/W3144356240
- https://openalex.org/W3196257774
- https://openalex.org/W3209679731
- https://openalex.org/W3209980779
- https://openalex.org/W4292432196
- https://openalex.org/W4306722552
- https://openalex.org/W4319083593