A Permutaion Importance Based feature selection method and Deep Learning Model to Detect Phishing Websites
- 1. Badji Mokhtar University
- 2. University Research Co (United States)
- 3. Bridge University
Description
Abstract Phishing attacks pose a significant and escalating threat to cybersecurity in recent times. This deceptive scam aims to trick naive users, luring them into visiting harmful websites and sharing sensitive information, including credentials, credit card numbers, and passwords. Consequently, cybercriminals exploit this data for their own gain. As the sophistication and maliciousness of phishing continue to evolve, researchers are earnestly developing multiple anti-phishing solutions in the literature. Among these solutions, those based on deep learning models have gained substantial attention in recent years. This study proposes an intelligent, deep-learning-based mechanism to detect phishing URLs. The proposed system is based on the permutation importance method (PIM) to select the most relevant URL features, and the Smote-Tomek link method to solve the problem of an unbalanced dataset. In addition, four DL models—CNN, LSTM, and two hybrid models (CNN-LSTM and LSTM-CNN)—are tested to identify the more suitable detection model for the phishing field. The experimental results demonstrate the successful functioning of the proposed phishing detection mechanism. It is observed that the proposed mechanism achieved an accuracy ranging from 93.36% to 96.43% without feature selection and data balance across two variants of datasets and different DL classifiers. It also achieved an accuracy ranging from 94.12% to 96.88% with feature selection and data balance. Finally, our phishing detection mechanism is implemented as web application to enhance its usability for web users.
Translated Descriptions
Translated Description (Arabic)
تشكل هجمات التصيد التجريدي تهديدًا كبيرًا ومتصاعدًا للأمن السيبراني في الآونة الأخيرة. تهدف هذه الحيلة الخادعة إلى خداع المستخدمين الساذجين، وإغرائهم بزيارة مواقع الويب الضارة ومشاركة المعلومات الحساسة، بما في ذلك بيانات الاعتماد وأرقام بطاقات الائتمان وكلمات المرور. وبالتالي، يستغل مجرمو الإنترنت هذه البيانات لتحقيق مكاسبهم الخاصة. مع استمرار تطور التعقيد والخبيثة للتصيد الاحتيالي، يعمل الباحثون بجدية على تطوير حلول متعددة لمكافحة التصيد الاحتيالي في الأدبيات. من بين هذه الحلول، اكتسبت تلك القائمة على نماذج التعلم العميق اهتمامًا كبيرًا في السنوات الأخيرة. تقترح هذه الدراسة آلية ذكية قائمة على التعلم العميق للكشف عن عناوين URL للتصيد الاحتيالي. يعتمد النظام المقترح على طريقة أهمية التقليب (PIM) لتحديد ميزات عنوان URL الأكثر صلة، وطريقة ارتباط Smote - Tomk لحل مشكلة مجموعة البيانات غير المتوازنة. بالإضافة إلى ذلك، يتم اختبار أربعة نماذج DL - CNN و LSTM ونموذجين هجينين (CNN - LSTM و LSTM - CNN)- لتحديد نموذج الكشف الأكثر ملاءمة لمجال التصيد الاحتيالي. تُظهر النتائج التجريبية الأداء الناجح لآلية الكشف عن التصيد الاحتيالي المقترحة. لوحظ أن الآلية المقترحة حققت دقة تتراوح من 93.36 ٪ إلى 96.43 ٪ دون اختيار الميزة وتوازن البيانات عبر نوعين مختلفين من مجموعات البيانات ومصنفات DL المختلفة. كما حققت دقة تتراوح بين 94.12 ٪ إلى 96.88 ٪ مع اختيار الميزات وتوازن البيانات. أخيرًا، يتم تنفيذ آلية اكتشاف التصيد الاحتيالي الخاصة بنا كتطبيق ويب لتعزيز قابليتها للاستخدام لمستخدمي الويب.Translated Description (French)
Résumé Les attaques d'hameçonnage constituent une menace importante et croissante pour la cybersécurité ces derniers temps. Cette escroquerie trompeuse vise à tromper les utilisateurs naïfs, à les inciter à visiter des sites Web nuisibles et à partager des informations sensibles, notamment des informations d'identification, des numéros de carte de crédit et des mots de passe. Par conséquent, les cybercriminels exploitent ces données à leur propre profit. Alors que la sophistication et la malveillance de l'hameçonnage continuent d'évoluer, les chercheurs développent sérieusement de multiples solutions anti-phishing dans la littérature. Parmi ces solutions, celles basées sur des modèles d'apprentissage profond ont attiré une attention considérable ces dernières années. Cette étude propose un mécanisme intelligent basé sur l'apprentissage en profondeur pour détecter les URL d'hameçonnage. Le système proposé est basé sur la méthode d'importance de permutation (PIM) pour sélectionner les caractéristiques d'URL les plus pertinentes, et la méthode de lien Smote-Tomek pour résoudre le problème d'un ensemble de données déséquilibré. En outre, quatre modèles DL - Conn, LSTM et deux modèles hybrides (CNN-LSTM et LSTM-CNN) - sont testés pour identifier le modèle de détection le plus approprié pour le domaine de l'hameçonnage. Les résultats expérimentaux démontrent le bon fonctionnement du mécanisme de détection d'hameçonnage proposé. Il est observé que le mécanisme proposé a atteint une précision allant de 93,36 % à 96,43 % sans sélection de caractéristiques et équilibre de données entre deux variantes d'ensembles de données et différents classificateurs DL. Il a également atteint une précision allant de 94,12 % à 96,88 % avec la sélection des fonctionnalités et l'équilibre des données. Enfin, notre mécanisme de détection d'hameçonnage est mis en œuvre en tant qu'application Web pour améliorer sa convivialité pour les utilisateurs Web.Translated Description (Spanish)
Los ataques de phishing abstracto representan una amenaza significativa y creciente para la ciberseguridad en los últimos tiempos. Esta estafa engañosa tiene como objetivo engañar a los usuarios ingenuos, atrayéndolos para que visiten sitios web dañinos y compartan información confidencial, incluidas credenciales, números de tarjetas de crédito y contraseñas. En consecuencia, los ciberdelincuentes explotan estos datos para su propio beneficio. A medida que la sofisticación y la malicia del phishing continúan evolucionando, los investigadores están desarrollando seriamente múltiples soluciones antiphishing en la literatura. Entre estas soluciones, las basadas en modelos de aprendizaje profundo han ganado una atención sustancial en los últimos años. Este estudio propone un mecanismo inteligente basado en el aprendizaje profundo para detectar URL de phishing. El sistema propuesto se basa en el método de importancia de permutación (PIM) para seleccionar las características de URL más relevantes y el método de enlace Smote-Tomek para resolver el problema de un conjunto de datos desequilibrado. Además, se prueban cuatro modelos DL: CNN, LSTM y dos modelos híbridos (CNN-LSTM y LSTM-CNN) para identificar el modelo de detección más adecuado para el campo de phishing. Los resultados experimentales demuestran el funcionamiento exitoso del mecanismo de detección de phishing propuesto. Se observa que el mecanismo propuesto logró una precisión que va del 93.36% al 96.43% sin selección de características y equilibrio de datos en dos variantes de conjuntos de datos y diferentes clasificadores de DL. También logró una precisión que oscila entre el 94,12% y el 96,88% con la selección de características y el equilibrio de datos. Finalmente, nuestro mecanismo de detección de phishing se implementa como aplicación web para mejorar su usabilidad para los usuarios de la web.Files
latest.pdf.pdf
Files
(752.3 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:43e27902057eb5240215b4531df00d11
|
752.3 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- طريقة اختيار الميزات القائمة على الأهمية الدائمة ونموذج التعلم العميق للكشف عن مواقع التصيد الاحتيالي
- Translated title (French)
- Une méthode de sélection de fonctionnalités basée sur l'importance du permutaion et un modèle d'apprentissage approfondi pour détecter les sites Web d'hameçonnage
- Translated title (Spanish)
- Un método de selección de características basado en la importancia de Permutaion y un modelo de aprendizaje profundo para detectar sitios web de phishing
Identifiers
- Other
- https://openalex.org/W4391786141
- DOI
- 10.21203/rs.3.rs-3943049/v1
References
- https://openalex.org/W2028223155
- https://openalex.org/W2787538540
- https://openalex.org/W2909737018
- https://openalex.org/W2919115771
- https://openalex.org/W2943828307
- https://openalex.org/W2971561269
- https://openalex.org/W2971983872
- https://openalex.org/W2982523005
- https://openalex.org/W2982692510
- https://openalex.org/W3033013607
- https://openalex.org/W3037276035
- https://openalex.org/W3119661877
- https://openalex.org/W3127432888
- https://openalex.org/W3147072361
- https://openalex.org/W3171018146
- https://openalex.org/W3179537268
- https://openalex.org/W3217356043
- https://openalex.org/W4213226555
- https://openalex.org/W4246162197
- https://openalex.org/W4308531811
- https://openalex.org/W4312436684
- https://openalex.org/W4313588323
- https://openalex.org/W4328090702
- https://openalex.org/W4364378850
- https://openalex.org/W4383751645