Published March 6, 2023 | Version v1
Publication Open

A Dynamic Weighted Federated Learning for Android Malware Classification

  • 1. Vellore Institute of Technology University
  • 2. Universitat Politècnica de Catalunya
  • 3. Centre Tecnologic de Telecomunicacions de Catalunya
  • 4. University of Engineering & Management

Description

Android malware attacks are increasing daily at a tremendous volume, making Android users more vulnerable to cyber-attacks. Researchers have developed many machine learning (ML)/ deep learning (DL) techniques to detect and mitigate android malware attacks. However, due to technological advancement, there is a rise in android mobile devices. Furthermore, the devices are geographically dispersed, resulting in distributed data. In such scenario, traditional ML/DL techniques are infeasible since all of these approaches require the data to be kept in a central system; this may provide a problem for user privacy because of the massive proliferation of Android mobile devices; putting the data in a central system creates an overhead. Also, the traditional ML/DL-based android malware classification techniques are not scalable. Researchers have proposed federated learning (FL) based android malware classification system to solve the privacy preservation and scalability with high classification performance. In traditional FL, Federated Averaging (FedAvg) is utilized to construct the global model at each round by merging all of the local models obtained from all of the customers that participated in the FL. However, the conventional FedAvg has a disadvantage: if one poor-performing local model is included in global model development for each round, it may result in an under-performing global model. Because FedAvg favors all local models equally when averaging. To address this issue, our main objective in this work is to design a dynamic weighted federated averaging (DW-FedAvg) strategy in which the weights for each local model are automatically updated based on their performance at the client. The DW-FedAvg is evaluated using four popular benchmark datasets, Melgenome, Drebin, Kronodroid and Tuandromd used in android malware classification research. The results show that our proposed approach is scalable, privacy preserved, and capable of outperforming the traditional FedAvg for android malware classification in terms of accuracy, F1 score, AUC score and FPR score.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تزداد هجمات البرامج الضارة للأندرويد يوميًا بكميات هائلة، مما يجعل مستخدمي أندرويد أكثر عرضة للهجمات الإلكترونية. طور الباحثون العديد من تقنيات التعلم الآلي/التعلم العميق للكشف عن هجمات البرامج الضارة على أندرويد والتخفيف من حدتها. ومع ذلك، بسبب التقدم التكنولوجي، هناك ارتفاع في الأجهزة المحمولة التي تعمل بنظام أندرويد. علاوة على ذلك، فإن الأجهزة موزعة جغرافيًا، مما يؤدي إلى توزيع البيانات. في مثل هذا السيناريو، تكون تقنيات التعلم الآلي/التعلم المباشر التقليدية غير مجدية لأن كل هذه الأساليب تتطلب الاحتفاظ بالبيانات في نظام مركزي ؛ قد يوفر هذا مشكلة لخصوصية المستخدم بسبب الانتشار الهائل لأجهزة Android المحمولة ؛ وضع البيانات في نظام مركزي يخلق نفقات عامة. كما أن تقنيات تصنيف البرامج الضارة التقليدية المستندة إلى ML/DL غير قابلة للتطوير. اقترح الباحثون نظام تصنيف البرامج الضارة للأندرويد القائم على التعلم الموحد (FL) لحل الحفاظ على الخصوصية وقابلية التوسع مع أداء تصنيف عالٍ. في العمل الجبري التقليدي، يتم استخدام المتوسط الموحد (FedAvg) لبناء النموذج العالمي في كل جولة من خلال دمج جميع النماذج المحلية التي تم الحصول عليها من جميع العملاء الذين شاركوا في العمل الجبري. ومع ذلك، فإن نموذج FedAvg التقليدي له عيب: إذا تم تضمين نموذج محلي ضعيف الأداء في تطوير النموذج العالمي لكل جولة، فقد يؤدي ذلك إلى نموذج عالمي ضعيف الأداء. لأن FedAvg تفضل جميع النماذج المحلية بالتساوي عند حساب المتوسط. لمعالجة هذه المشكلة، يتمثل هدفنا الرئيسي في هذا العمل في تصميم استراتيجية متوسطات موحدة مرجحة ديناميكية (DW - FedAvg) يتم فيها تحديث أوزان كل نموذج محلي تلقائيًا بناءً على أدائه في العميل. يتم تقييم DW - FedAvg باستخدام أربع مجموعات بيانات مرجعية شائعة، وهي Melgenome و Drebin و Kronodroid و Tuandromd المستخدمة في أبحاث تصنيف البرامج الضارة للأندرويد. تظهر النتائج أن نهجنا المقترح قابل للتطوير، والحفاظ على الخصوصية، وقادر على التفوق على تصنيف FedAvg التقليدي للبرامج الضارة للأندرويد من حيث الدقة، ودرجة F1، ودرجة AUC، ودرجة FPR.

Translated Description (French)

Les attaques de logiciels malveillants Android augmentent chaque jour à un volume énorme, ce qui rend les utilisateurs d'Android plus vulnérables aux cyberattaques. Les chercheurs ont développé de nombreuses techniques d'apprentissage automatique (ML)/apprentissage profond (DL) pour détecter et atténuer les attaques de logiciels malveillants Android. Cependant, en raison des progrès technologiques, il y a une augmentation des appareils mobiles Android. En outre, les dispositifs sont géographiquement dispersés, ce qui se traduit par des données distribuées. Dans un tel scénario, les techniques traditionnelles de ML/DL sont irréalisables car toutes ces approches nécessitent que les données soient conservées dans un système central ; cela peut poser un problème pour la confidentialité des utilisateurs en raison de la prolifération massive des appareils mobiles Android ; placer les données dans un système central crée des frais généraux. En outre, les techniques traditionnelles de classification des logiciels malveillants androïdes basées sur le ML/DL ne sont pas évolutives. Les chercheurs ont proposé un système de classification des logiciels malveillants androïdes basé sur l'apprentissage fédéré (FL) pour résoudre les problèmes de préservation de la vie privée et d'évolutivité avec des performances de classification élevées. Dans le FL traditionnel, la moyenne fédérée (FedAvg) est utilisée pour construire le modèle global à chaque tour en fusionnant tous les modèles locaux obtenus auprès de tous les clients qui ont participé au FL. Cependant, le FedAvg conventionnel présente un inconvénient : si un modèle local peu performant est inclus dans le développement du modèle mondial pour chaque cycle, il peut en résulter un modèle mondial sous-performant. Parce que FedAvg favorise tous les modèles locaux de manière égale lors du calcul de la moyenne. Pour résoudre ce problème, notre objectif principal dans ce travail est de concevoir une stratégie de moyenne fédérée pondérée dynamique (DW-FedAvg) dans laquelle les pondérations de chaque modèle local sont automatiquement mises à jour en fonction de leurs performances chez le client. Le DW-FedAvg est évalué à l'aide de quatre ensembles de données de référence populaires, Melgenome, Drebin, Kronodroid et Tuandromd, utilisés dans la recherche sur la classification des logiciels malveillants androïdes. Les résultats montrent que notre approche proposée est évolutive, la vie privée préservée et capable de surpasser la classification FedAvg traditionnelle pour les logiciels malveillants Android en termes de précision, de score F1, de score AUC et de score FPR.

Translated Description (Spanish)

Los ataques de malware para Android aumentan a diario a un volumen tremendo, lo que hace que los usuarios de Android sean más vulnerables a los ciberataques. Los investigadores han desarrollado muchas técnicas de aprendizaje automático (ML)/aprendizaje profundo (DL) para detectar y mitigar los ataques de malware de Android. Sin embargo, debido al avance tecnológico, hay un aumento en los dispositivos móviles Android. Además, los dispositivos están dispersos geográficamente, lo que resulta en datos distribuidos. En tal escenario, las técnicas tradicionales de ML/DL son inviables, ya que todos estos enfoques requieren que los datos se mantengan en un sistema central; esto puede proporcionar un problema para la privacidad del usuario debido a la proliferación masiva de dispositivos móviles Android; poner los datos en un sistema central crea una sobrecarga. Además, las técnicas tradicionales de clasificación de malware para Android basadas en ML/DL no son escalables. Los investigadores han propuesto un sistema de clasificación de malware Android basado en aprendizaje federado (FL) para resolver la preservación de la privacidad y la escalabilidad con un alto rendimiento de clasificación. En FL tradicional, el Promedio Federado (FedAvg) se utiliza para construir el modelo global en cada ronda mediante la fusión de todos los modelos locales obtenidos de todos los clientes que participaron en el FL. Sin embargo, el FedAvg convencional tiene una desventaja: si se incluye un modelo local de bajo rendimiento en el desarrollo del modelo global para cada ronda, puede resultar en un modelo global de bajo rendimiento. Porque FedAvg favorece a todos los modelos locales por igual al promediar. Para abordar este problema, nuestro objetivo principal en este trabajo es diseñar una estrategia de promediado federado ponderado dinámico (DW-FedAvg) en la que los pesos para cada modelo local se actualicen automáticamente en función de su rendimiento en el cliente. El DW-FedAvg se evalúa utilizando cuatro conjuntos de datos de referencia populares, Melgenome, Drebin, Kronodroid y Tuandromd, utilizados en la investigación de clasificación de malware para Android. Los resultados muestran que nuestro enfoque propuesto es escalable, se preserva la privacidad y es capaz de superar al FedAvg tradicional para la clasificación de malware Android en términos de precisión, puntuación F1, puntuación AUC y puntuación FPR.

Files

techrxiv.22209670.v1.pdf

Files (261.1 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:ee2327a53f654d5dedac44c943825c50
261.1 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
التعلم الديناميكي الموحد المرجح لتصنيف البرمجيات الخبيثة للأندرويد
Translated title (French)
Un apprentissage fédéré pondéré dynamique pour la classification des logiciels malveillants Android
Translated title (Spanish)
Un aprendizaje federado ponderado dinámico para la clasificación de malware de Android

Identifiers

Other
https://openalex.org/W4323306719
DOI
10.36227/techrxiv.22209670

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W3186817993