Evading obscure communication from spam emails
- 1. Air University
- 2. University of the Faroe Islands
- 3. Information Technology University
Description
Spam is any form of annoying and unsought digital communication sent in bulk and may contain offensive content feasting viruses and cyber-attacks. The voluminous increase in spam has necessitated developing more reliable and vigorous artificial intelligence-based anti-spam filters. Besides text, an email sometimes contains multimedia content such as audio, video, and images. However, text-centric email spam filtering employing text classification techniques remains today's preferred choice. In this paper, we show that text pre-processing techniques nullify the detection of malicious contents in an obscure communication framework. We use Spamassassin corpus with and without text pre-processing and examined it using machine learning (ML) and deep learning (DL) algorithms to classify these as ham or spam emails. The proposed DL-based approach consistently outperforms ML models. In the first stage, using pre-processing techniques, the long-short-term memory (LSTM) model achieves the highest results of 93.46% precision, 96.81% recall, and 95% F1-score. In the second stage, without using pre-processing techniques, LSTM achieves the best results of 95.26% precision, 97.18% recall, and 96% F1-score. Results show the supremacy of DL algorithms over the standard ones in filtering spam. However, the effects are unsatisfactory for detecting encrypted communication for both forms of ML algorithms.
Translated Descriptions
Translated Description (Arabic)
الرسائل غير المرغوب فيها هي أي شكل من أشكال الاتصالات الرقمية المزعجة وغير المرغوب فيها المرسلة بكميات كبيرة وقد تحتوي على فيروسات احتفال بالمحتوى المسيء والهجمات الإلكترونية. وقد استلزمت الزيادة الهائلة في الرسائل غير المرغوب فيها تطوير مرشحات لمكافحة الرسائل غير المرغوب فيها قائمة على الذكاء الاصطناعي أكثر موثوقية وقوة. إلى جانب النص، يحتوي البريد الإلكتروني أحيانًا على محتوى وسائط متعددة مثل الصوت والفيديو والصور. ومع ذلك، لا تزال تصفية البريد الإلكتروني العشوائي المرتكز على النص باستخدام تقنيات تصنيف النص هي الخيار المفضل اليوم. في هذه الورقة، نوضح أن تقنيات المعالجة المسبقة للنص تلغي الكشف عن المحتويات الضارة في إطار اتصال غامض. نستخدم مجموعة Spamassassin مع وبدون المعالجة المسبقة للنص وفحصها باستخدام خوارزميات التعلم الآلي (ML) والتعلم العميق (DL) لتصنيفها على أنها رسائل بريد إلكتروني غير مرغوب فيها أو رسائل بريد إلكتروني غير مرغوب فيها. يتفوق النهج القائم على DL المقترح باستمرار على نماذج ML. في المرحلة الأولى، باستخدام تقنيات المعالجة المسبقة، يحقق نموذج الذاكرة طويلة المدى (LSTM) أعلى النتائج بدقة 93.46 ٪، و 96.81 ٪ استدعاء، و 95 ٪ درجة F1. في المرحلة الثانية، دون استخدام تقنيات المعالجة المسبقة، يحقق LSTM أفضل النتائج بدقة 95.26 ٪، و 97.18 ٪ استدعاء، و 96 ٪ درجة F1. تظهر النتائج تفوق خوارزميات DL على الخوارزميات القياسية في تصفية البريد العشوائي. ومع ذلك، فإن التأثيرات غير مرضية للكشف عن الاتصالات المشفرة لكلا شكلي خوارزميات تعلم الآلة.Translated Description (French)
Le spam est toute forme de communication numérique ennuyeuse et non sollicitée envoyée en masse et peut contenir du contenu offensant contenant des virus et des cyberattaques. L'augmentation volumineuse du spam a nécessité le développement de filtres anti-spam basés sur l'intelligence artificielle plus fiables et plus vigoureux. Outre le texte, un e-mail contient parfois du contenu multimédia tel que de l'audio, de la vidéo et des images. Cependant, le filtrage du courrier indésirable centré sur le texte utilisant des techniques de classification de texte reste le choix préféré aujourd'hui. Dans cet article, nous montrons que les techniques de prétraitement de texte annulent la détection de contenus malveillants dans un cadre de communication obscur. Nous utilisons le corpus Spamassassin avec et sans prétraitement de texte et l'avons examiné à l'aide d'algorithmes d'apprentissage automatique (ML) et d'apprentissage profond (DL) pour les classer comme des e-mails Ham ou spam. L'approche basée sur le DL proposée surpasse systématiquement les modèles de ML. Dans la première étape, en utilisant des techniques de prétraitement, le modèle de mémoire à long terme (LSTM) atteint les résultats les plus élevés de 93,46 % de précision, 96,81 % de rappel et 95 % de score F1. Dans la deuxième étape, sans utiliser de techniques de prétraitement, LSTM obtient les meilleurs résultats avec une précision de 95,26 %, un rappel de 97,18 % et un score F1 de 96 %. Les résultats montrent la suprématie des algorithmes DL sur les algorithmes standard dans le filtrage du spam. Cependant, les effets ne sont pas satisfaisants pour détecter une communication cryptée pour les deux formes d'algorithmes de ML.Translated Description (Spanish)
El spam es cualquier forma de comunicación digital molesta y no buscada enviada a granel y puede contener contenido ofensivo que se alimenta de virus y ciberataques. El voluminoso aumento del spam ha hecho necesario desarrollar filtros antispam basados en inteligencia artificial más fiables y vigorosos. Además del texto, un correo electrónico a veces contiene contenido multimedia como audio, vídeo e imágenes. Sin embargo, el filtrado de spam de correo electrónico centrado en texto que emplea técnicas de clasificación de texto sigue siendo la opción preferida hoy en día. En este trabajo, mostramos que las técnicas de preprocesamiento de texto anulan la detección de contenidos maliciosos en un marco de comunicación oscuro. Utilizamos el corpus Spamassassin con y sin preprocesamiento de texto y lo examinamos utilizando algoritmos de aprendizaje automático (ML) y aprendizaje profundo (DL) para clasificarlos como Ham o correos electrónicos no deseados. El enfoque basado en DL propuesto supera constantemente los modelos de ML. En la primera etapa, utilizando técnicas de preprocesamiento, el modelo de memoria a largo plazo-corto plazo (LSTM) logra los resultados más altos de 93.46% de precisión, 96.81% de recordación y 95% de puntuación F1. En la segunda etapa, sin utilizar técnicas de preprocesamiento, LSTM logra los mejores resultados de 95.26% de precisión, 97.18% de recordación y 96% de puntuación F1. Los resultados muestran la supremacía de los algoritmos DL sobre los estándares en el filtrado de spam. Sin embargo, los efectos son insatisfactorios para detectar la comunicación cifrada para ambas formas de algoritmos de ML.Additional details
Additional titles
- Translated title (Arabic)
- تجنب الاتصالات الغامضة من رسائل البريد الإلكتروني غير المرغوب فيها
- Translated title (French)
- Éviter les communications obscures provenant des courriels indésirables
- Translated title (Spanish)
- Evadir la comunicación oscura de los correos electrónicos no deseados
Identifiers
- Other
- https://openalex.org/W4205597133
- DOI
- 10.3934/mbe.2022091
References
- https://openalex.org/W2750651073
- https://openalex.org/W3005923092
- https://openalex.org/W3016481661
- https://openalex.org/W3093516977
- https://openalex.org/W3094117827
- https://openalex.org/W3094190102
- https://openalex.org/W3094972238
- https://openalex.org/W3109495747
- https://openalex.org/W3119513105
- https://openalex.org/W3121960994
- https://openalex.org/W3124340574
- https://openalex.org/W3128984832
- https://openalex.org/W3130203539
- https://openalex.org/W3135306750
- https://openalex.org/W3136302191
- https://openalex.org/W3142156319
- https://openalex.org/W3154498478
- https://openalex.org/W3155615010
- https://openalex.org/W3161590955
- https://openalex.org/W3165474736
- https://openalex.org/W3166266594
- https://openalex.org/W3167311691
- https://openalex.org/W3168794370
- https://openalex.org/W3173922570
- https://openalex.org/W3174166523
- https://openalex.org/W3175473974
- https://openalex.org/W3181375284
- https://openalex.org/W3182564622
- https://openalex.org/W3188556817
- https://openalex.org/W3194419036
- https://openalex.org/W3197379723
- https://openalex.org/W3198713703
- https://openalex.org/W3200181601
- https://openalex.org/W3214812402
- https://openalex.org/W4245878755
- https://openalex.org/W4250304532
- https://openalex.org/W4288076027