Piracema: a Phishing snapshot database for building dataset features
Creators
- 1. Universidade de Pernambuco
- 2. Universidade Federal do Amazonas
- 3. Universidade Federal de Pernambuco
Description
Phishing is an attack characterized by attempted fraud against users. The attacker develops a malicious page that is a trusted environment, inducing its victims to submit sensitive data. There are several platforms, such as PhishTank and OpenPhish, that maintain databases on malicious pages to support anti-phishing solutions, such as, for example, block lists and machine learning. A problem with this scenario is that many of these databases are disorganized, inconsistent, and have some limitations regarding integrity and balance. In addition, because phishing is so volatile, considerable effort is put into preserving temporal information from each malicious page. To contribute, this article built a phishing database with consistent and balanced data, temporal information, and a significant number of occurrences, totaling 942,471 records over the 5 years between 2016 and 2021. Of these records, 135,542 preserve the page's source code, 258,416 have the attack target brand detected, 70,597 have the hosting service identified, and 15,008 have the shortener service discovered. Additionally, 123,285 records store WHOIS information of the domain registered in 2021. The data is available on the website https://piracema.io/repository.
Translated Descriptions
Translated Description (Arabic)
التصيد الاحتيالي هو هجوم يتميز بمحاولة الاحتيال على المستخدمين. يطور المهاجم صفحة ضارة هي بيئة موثوقة، مما يدفع ضحاياه إلى تقديم بيانات حساسة. هناك العديد من المنصات، مثل PhishTank وOpenPhish، التي تحتفظ بقواعد بيانات على صفحات ضارة لدعم حلول مكافحة التصيد الاحتيالي، مثل قوائم الحظر والتعلم الآلي. تكمن المشكلة في هذا السيناريو في أن العديد من قواعد البيانات هذه غير منظمة وغير متسقة ولديها بعض القيود فيما يتعلق بالنزاهة والتوازن. بالإضافة إلى ذلك، نظرًا لأن التصيد الاحتيالي متقلب للغاية، يتم بذل جهد كبير في الحفاظ على المعلومات الزمنية من كل صفحة ضارة. للمساهمة، أنشأت هذه المقالة قاعدة بيانات للتصيد الاحتيالي تحتوي على بيانات متسقة ومتوازنة ومعلومات زمنية وعدد كبير من الحوادث، بلغ مجموعها 942,471 سجلًا على مدى 5 سنوات بين عامي 2016 و 2021. من بين هذه السجلات، يحافظ 135,542 على شفرة مصدر الصفحة، و 258,416 تم اكتشاف العلامة التجارية المستهدفة للهجوم، و 70,597 تم تحديد خدمة الاستضافة، و 15,008 تم اكتشاف خدمة الاختصار. بالإضافة إلى ذلك، يخزن 123,285 سجل معلومات WHOIS للنطاق المسجل في عام 2021. البيانات متاحة على الموقع الإلكتروني https://piracema.io/repository.Translated Description (French)
L'hameçonnage est une attaque caractérisée par une tentative de fraude contre les utilisateurs. L'attaquant développe une page malveillante qui est un environnement de confiance, incitant ses victimes à soumettre des données sensibles. Il existe plusieurs plates-formes, telles que PhishTank et OpenPhish, qui gèrent des bases de données sur des pages malveillantes pour prendre en charge les solutions anti-phishing, telles que, par exemple, les listes de blocage et l'apprentissage automatique. Un problème avec ce scénario est que beaucoup de ces bases de données sont désorganisées, incohérentes et présentent certaines limites en matière d'intégrité et d'équilibre. De plus, en raison de la volatilité de l'hameçonnage, des efforts considérables sont déployés pour préserver les informations temporelles de chaque page malveillante. Pour contribuer, cet article a construit une base de données d'hameçonnage avec des données cohérentes et équilibrées, des informations temporelles et un nombre important d'occurrences, totalisant 942 471 enregistrements sur les 5 années entre 2016 et 2021. Parmi ces enregistrements, 135 542 conservent le code source de la page, 258 416 ont la marque cible d'attaque détectée, 70 597 ont le service d'hébergement identifié et 15 008 ont le service de raccourcissement découvert. En outre, 123 285 enregistrements stockent des informations WHOIS du domaine enregistré en 2021. Les données sont disponibles sur le site https://piracema.io/repository.Translated Description (Spanish)
El phishing es un ataque caracterizado por intentos de fraude contra los usuarios. El atacante desarrolla una página maliciosa que es un entorno de confianza, lo que induce a sus víctimas a enviar datos confidenciales. Existen varias plataformas, como PhishTank y OpenPhish, que mantienen bases de datos en páginas maliciosas para admitir soluciones antiphishing, como, por ejemplo, listas de bloqueo y aprendizaje automático. Un problema con este escenario es que muchas de estas bases de datos son desorganizadas, inconsistentes y tienen algunas limitaciones con respecto a la integridad y el equilibrio. Además, debido a que el phishing es tan volátil, se hace un esfuerzo considerable para preservar la información temporal de cada página maliciosa. Para contribuir, este artículo construyó una base de datos de phishing con datos consistentes y equilibrados, información temporal y un número significativo de ocurrencias, totalizando 942,471 registros durante los 5 años entre 2016 y 2021. De estos registros, 135.542 conservan el código fuente de la página, 258.416 tienen la marca objetivo de ataque detectada, 70.597 tienen el servicio de alojamiento identificado y 15.008 tienen el servicio de acortador descubierto. Adicionalmente, 123.285 registros almacenan información WHOIS del dominio registrado en 2021. Los datos están disponibles en el sitio web https://piracema.io/repository.Files
s41598-022-19442-8.pdf.pdf
Files
(2.6 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:26993755bd42c16117c5e30d0d6cefb8
|
2.6 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- بيراسيما: قاعدة بيانات لقطات التصيد الاحتيالي لبناء ميزات مجموعة البيانات
- Translated title (French)
- Piracema : une base de données d'instantanés d'hameçonnage pour créer des fonctionnalités d'ensemble de données
- Translated title (Spanish)
- Piracema: una base de datos de instantáneas de phishing para crear funciones de conjuntos de datos
Identifiers
- Other
- https://openalex.org/W4294991124
- DOI
- 10.1038/s41598-022-19442-8
References
- https://openalex.org/W1498672433
- https://openalex.org/W2028223155
- https://openalex.org/W258019806
- https://openalex.org/W2606751384
- https://openalex.org/W2614646077
- https://openalex.org/W2766805006
- https://openalex.org/W2790832404
- https://openalex.org/W2794609498
- https://openalex.org/W2962760543
- https://openalex.org/W2972765591
- https://openalex.org/W3013136547
- https://openalex.org/W3016468269
- https://openalex.org/W3031472106
- https://openalex.org/W3043554268
- https://openalex.org/W3045931268
- https://openalex.org/W3213373055
- https://openalex.org/W4200475085
- https://openalex.org/W4226456032