A hybrid deep learning technique for spoofing website URL detection in real-time applications
- 1. Baze University
- 2. Federal University Lokoja
Description
Abstract Website Uniform Resource Locator (URL) spoofing remains one of the ways of perpetrating phishing attacks in the twenty-first century. Hackers continue to employ URL spoofing to deceive naïve and unsuspecting consumers into releasing important personal details in malicious websites. Blacklists and rule-based filters that were once effective at reducing the risks and sophistication of phishing are no longer effective as there are over 1.5 million new phishing websites created monthly. Therefore, research aimed at unveiling new techniques for detecting phishing websites has sparked a lot of interest in both academics and business with machine and deep learning techniques being at the forefront. Among the deep learning techniques that have been employed, Convolutional Neural Network (CNN) remains one of the most widely used with high performance in feature learning. However, CNN has a problem of memorizing contextual relationships in URL text, which makes it challenging to efficiently detect sophisticated malicious URLs in real-time applications. On the contrary, Long Short-Term Memory (LSTM) deep learning model has been successfully employed in complex real-time problems because of its ability to store inputs for a long period of time. This study experiments with the use of hybrid CNN and LSTM deep learning models for spoofing website URL detection in order to exploit the combined strengths of the two approaches for a more sophisticated spoofing URL detection. Two publicly available datasets (UCL spoofing Website and PhishTank Datasets) were used to evaluate the performance of the proposed hybrid model against other models in the literature. The hybrid CNN-LSTM model achieved accuracies of 98.9% and 96.8%, respectively, when evaluated using the UCL and PhishTank datasets. On the other hand, the standalone CNN and LSTM achieved accuracies of 90.4% and 94.6% on the UCL dataset, while their accuracies on the PhishTank dataset were 89.3% and 92.6%, respectively. The results show that the hybrid CNN-LSTM algorithm largely outperformed the standalone CNN and LSTM models, which demonstrates a much better performance. Therefore, the hybrid deep learning technique is recommended for detecting spoofing website URL thereby reducing losses attributed to such attacks.
Translated Descriptions
Translated Description (Arabic)
يظل انتحال محدد موقع الويب الموحد (URL) أحد طرق ارتكاب هجمات التصيد الاحتيالي في القرن الحادي والعشرين. يواصل المتسللون استخدام خداع عناوين URL لخداع المستهلكين الساذجين وغير المتشككين في نشر تفاصيل شخصية مهمة في مواقع الويب الضارة. لم تعد القوائم السوداء والمرشحات القائمة على القواعد التي كانت ذات يوم فعالة في الحد من مخاطر التصيد الاحتيالي وتعقيده فعالة حيث يوجد أكثر من 1.5 مليون موقع تصيد احتيالي جديد يتم إنشاؤه شهريًا. لذلك، أثارت الأبحاث التي تهدف إلى الكشف عن تقنيات جديدة للكشف عن مواقع التصيد الاحتيالي الكثير من الاهتمام في كل من الأكاديميين والأعمال التجارية مع وجود تقنيات التعلم الآلي والعميق في المقدمة. من بين تقنيات التعلم العميق التي تم استخدامها، لا تزال الشبكة العصبية الالتفافية (CNN) واحدة من أكثر التقنيات استخدامًا على نطاق واسع مع الأداء العالي في تعلم الميزات. ومع ذلك، تواجه سي إن إن مشكلة في حفظ العلاقات السياقية في نص عنوان URL، مما يجعل من الصعب اكتشاف عناوين URL الخبيثة المعقدة بكفاءة في التطبيقات في الوقت الفعلي. على العكس من ذلك، تم استخدام نموذج التعلم العميق للذاكرة طويلة المدى (LSTM) بنجاح في مشاكل معقدة في الوقت الفعلي بسبب قدرته على تخزين المدخلات لفترة طويلة من الزمن. تختبر هذه الدراسة استخدام نماذج التعلم العميق الهجينة CNN و LSTM لاكتشاف عنوان URL لموقع الويب من أجل استغلال نقاط القوة المشتركة للنهجين لاكتشاف عنوان URL أكثر تعقيدًا. تم استخدام مجموعتين من البيانات المتاحة للجمهور (موقع خداع كلية لندن الجامعية ومجموعات بيانات PhishTank) لتقييم أداء النموذج الهجين المقترح مقابل النماذج الأخرى في الأدبيات. حقق نموذج CNN - LSTM الهجين دقة بنسبة 98.9 ٪ و 96.8 ٪ على التوالي، عند تقييمه باستخدام مجموعات بيانات UCL و PhishTank. من ناحية أخرى، حققت شبكة سي إن إن المستقلة و LSTM دقة بنسبة 90.4 ٪ و 94.6 ٪ في مجموعة بيانات UCL، في حين بلغت دقتها في مجموعة بيانات PhishTank 89.3 ٪ و 92.6 ٪ على التوالي. أظهرت النتائج أن خوارزمية CNN - LSTM الهجينة تفوقت إلى حد كبير على نماذج CNN و LSTM المستقلة، مما يدل على أداء أفضل بكثير. لذلك، يوصى باستخدام تقنية التعلم العميق الهجينة للكشف عن عنوان URL لموقع الويب المخادع وبالتالي تقليل الخسائر المنسوبة إلى مثل هذه الهجمات.Translated Description (French)
L'usurpation de l'URL (Uniform Resource Locator) d'un site Web abstrait reste l'un des moyens de perpétrer des attaques de phishing au XXIe siècle. Les pirates continuent d'utiliser l'usurpation d'URL pour tromper les consommateurs naïfs et sans méfiance en publiant des informations personnelles importantes sur des sites Web malveillants. Les listes noires et les filtres basés sur des règles qui étaient autrefois efficaces pour réduire les risques et la sophistication de l'hameçonnage ne sont plus efficaces car plus de 1,5 million de nouveaux sites Web d'hameçonnage sont créés chaque mois. Par conséquent, la recherche visant à dévoiler de nouvelles techniques de détection des sites Web d'hameçonnage a suscité beaucoup d'intérêt à la fois chez les universitaires et les entreprises, les techniques d'apprentissage automatique et d'apprentissage profond étant à l'avant-garde. Parmi les techniques d'apprentissage en profondeur qui ont été employées, Convolutional Neural Network (CNN) reste l'une des plus largement utilisées avec de hautes performances dans l'apprentissage des fonctionnalités. Cependant, CNN a un problème de mémorisation des relations contextuelles dans le texte des URL, ce qui rend difficile la détection efficace des URL malveillantes sophistiquées dans les applications en temps réel. Au contraire, le modèle d'apprentissage profond à mémoire à long terme (LSTM) a été utilisé avec succès dans des problèmes complexes en temps réel en raison de sa capacité à stocker des entrées pendant une longue période. Cette étude expérimente l'utilisation de modèles d'apprentissage profond hybrides CNN et LSTM pour la détection d'URL de site Web d'usurpation afin d'exploiter les forces combinées des deux approches pour une détection d'URL d'usurpation plus sophistiquée. Deux ensembles de données accessibles au public (site Web d'usurpation UCL et ensembles de données PhishTank) ont été utilisés pour évaluer la performance du modèle hybride proposé par rapport à d'autres modèles de la littérature. Le modèle hybride CNN-LSTM a atteint des précisions de 98,9 % et 96,8 %, respectivement, lorsqu'il est évalué à l'aide des ensembles de données UCL et PhishTank. D'autre part, les CNN et LSTM autonomes ont atteint des précisions de 90,4 % et 94,6 % sur l'ensemble de données UCL, tandis que leurs précisions sur l'ensemble de données PhishTank étaient de 89,3 % et 92,6 %, respectivement. Les résultats montrent que l'algorithme hybride CNN-LSTM a largement surpassé les modèles CNN et LSTM autonomes, ce qui démontre une bien meilleure performance. Par conséquent, la technique d'apprentissage en profondeur hybride est recommandée pour détecter l'usurpation d'URL de site Web, réduisant ainsi les pertes attribuées à de telles attaques.Translated Description (Spanish)
Abstract Website Uniform Resource Locator (URL) spoofing sigue siendo una de las formas de perpetrar ataques de phishing en el siglo XXI. Los piratas informáticos continúan empleando la suplantación de URL para engañar a los consumidores ingenuos y desprevenidos para que publiquen datos personales importantes en sitios web maliciosos. Las listas negras y los filtros basados en reglas que alguna vez fueron efectivos para reducir los riesgos y la sofisticación del phishing ya no son efectivos, ya que hay más de 1,5 millones de nuevos sitios web de phishing creados mensualmente. Por lo tanto, la investigación dirigida a descubrir nuevas técnicas para detectar sitios web de phishing ha despertado mucho interés tanto en el mundo académico como en el empresarial, con las técnicas de aprendizaje automático y profundo a la vanguardia. Entre las técnicas de aprendizaje profundo que se han empleado, la Red Neuronal Convolucional (CNN) sigue siendo una de las más utilizadas con un alto rendimiento en el aprendizaje de funciones. Sin embargo, CNN tiene un problema para memorizar las relaciones contextuales en el texto de la URL, lo que dificulta la detección eficiente de URL maliciosas sofisticadas en aplicaciones en tiempo real. Por el contrario, el modelo de aprendizaje profundo de memoria a largo y corto plazo (LSTM) se ha empleado con éxito en problemas complejos en tiempo real debido a su capacidad para almacenar entradas durante un largo período de tiempo. Este estudio experimenta con el uso de modelos híbridos de aprendizaje profundo de CNN y LSTM para la detección de URL de sitios web de suplantación de identidad con el fin de explotar las fortalezas combinadas de los dos enfoques para una detección de URL de suplantación de identidad más sofisticada. Se utilizaron dos conjuntos de datos disponibles públicamente (sitio web de falsificación de UCL y conjuntos de datos de PhishTank) para evaluar el rendimiento del modelo híbrido propuesto frente a otros modelos en la literatura. El modelo híbrido CNN-LSTM logró precisiones del 98,9% y 96,8%, respectivamente, cuando se evaluó utilizando los conjuntos de datos UCL y PhishTank. Por otro lado, CNN y LSTM independientes lograron precisiones de 90.4% y 94.6% en el conjunto de datos de UCL, mientras que sus precisiones en el conjunto de datos de PhishTank fueron 89.3% y 92.6%, respectivamente. Los resultados muestran que el algoritmo híbrido CNN-LSTM superó en gran medida a los modelos independientes CNN y LSTM, lo que demuestra un rendimiento mucho mejor. Por lo tanto, se recomienda la técnica híbrida de aprendizaje profundo para detectar la URL del sitio web de suplantación de identidad, reduciendo así las pérdidas atribuidas a dichos ataques.Files
s43067-023-00128-8.pdf
Files
(1.1 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:43e3d8181b84f4ad36c59115dfae1c63
|
1.1 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تقنية هجينة للتعلم العميق لاكتشاف عنوان URL لموقع الويب في التطبيقات في الوقت الفعلي
- Translated title (French)
- Une technique d'apprentissage en profondeur hybride pour la détection d'URL de site Web d'usurpation d'identité dans des applications en temps réel
- Translated title (Spanish)
- Una técnica híbrida de aprendizaje profundo para la detección de URL de sitios web falsos en aplicaciones en tiempo real
Identifiers
- Other
- https://openalex.org/W4391171631
- DOI
- 10.1186/s43067-023-00128-8
References
- https://openalex.org/W2064675550
- https://openalex.org/W2112796928
- https://openalex.org/W2617931097
- https://openalex.org/W2618014102
- https://openalex.org/W2788346622
- https://openalex.org/W2998979401
- https://openalex.org/W3092601178
- https://openalex.org/W3093641884
- https://openalex.org/W3127772406
- https://openalex.org/W3170052928
- https://openalex.org/W3175957125
- https://openalex.org/W3197388494
- https://openalex.org/W4213194650
- https://openalex.org/W4220702949
- https://openalex.org/W4367598850