Published January 1, 2020 | Version v1
Publication Open

Mobile Privacy: Scalable Ensemble Matching for User Identification Attacks

  • 1. Colorado State University
  • 2. Peking University
  • 3. Chinese University of Hong Kong, Shenzhen
  • 4. Shenzhen Research Institute of Big Data

Description

Mobile privacy is broadly concerning in the mobile big data era, as user mobility behaviors are privacy-sensitive and unique. User identification attacks consist of one of the most critical privacy concerns on mobile big data. In this paper, we study mobile privacy in terms of user identifiability from the perspective of privacy adversaries. User identification in two datasets from the same data source or two different data sources is generally formulated as a linear assignment problem (LAP), in which the cost matrix of users is generated by a single distance measure. However, user identification via one single distance measure may lead to a large portion of false matches, especially when only a few users coexist across these two datasets. In addition, the cubic computational complexity of LAP limits the scale of user identification analysis. In this paper, we propose a multi-feature ensemble matching framework to improve the user identification precision based on a majority voting rule, by integrating multiple distance measures. The computational complexity of the proposed ensemble matching algorithm is an order of magnitude less than that of the single-distance based approach, which results from solving an LAP on a highly sparse matrix rather than a dense matrix. Experiments demonstrate the superior performance of our proposed scalable ensemble matching framework with respect to matching precision as well as the vulnerability of mobile network subscribers' privacy.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تعد خصوصية الهاتف المحمول مثيرة للقلق على نطاق واسع في عصر البيانات الضخمة للهاتف المحمول، حيث أن سلوكيات تنقل المستخدمين حساسة للخصوصية وفريدة من نوعها. تتكون هجمات تحديد هوية المستخدم من أحد أهم مخاوف الخصوصية على البيانات الضخمة للهاتف المحمول. في هذه الورقة، ندرس خصوصية الهاتف المحمول من حيث إمكانية تحديد هوية المستخدم من منظور خصوم الخصوصية. تتم صياغة تعريف المستخدم في مجموعتي بيانات من نفس مصدر البيانات أو مصدرين مختلفين للبيانات بشكل عام كمشكلة تعيين خطي (LAP)، حيث يتم إنشاء مصفوفة تكلفة المستخدمين من خلال مقياس مسافة واحد. ومع ذلك، قد يؤدي تحديد هوية المستخدم عبر مقياس مسافة واحد إلى جزء كبير من التطابقات الخاطئة، خاصة عندما يتعايش عدد قليل فقط من المستخدمين عبر مجموعتي البيانات هاتين. بالإضافة إلى ذلك، فإن التعقيد الحسابي التكعيبي لـ LAP يحد من حجم تحليل تحديد هوية المستخدم. في هذه الورقة، نقترح إطارًا لمطابقة المجموعة متعددة الميزات لتحسين دقة تحديد هوية المستخدم بناءً على قاعدة تصويت الأغلبية، من خلال دمج مقاييس المسافات المتعددة. التعقيد الحسابي لخوارزمية مطابقة المجموعة المقترحة هو ترتيب أقل حجماً من النهج القائم على مسافة واحدة، والذي ينتج عن حل دورة على مصفوفة متناثرة للغاية بدلاً من مصفوفة كثيفة. تُظهر التجارب الأداء المتفوق لإطار المطابقة الجماعي القابل للتطوير المقترح فيما يتعلق بمطابقة الدقة بالإضافة إلى ضعف خصوصية مشتركي شبكة الهاتف المحمول.

Translated Description (French)

La confidentialité mobile est largement préoccupante à l'ère du big data mobile, car les comportements de mobilité des utilisateurs sont sensibles à la confidentialité et uniques. Les attaques d'identification des utilisateurs constituent l'une des préoccupations les plus critiques en matière de confidentialité sur les mégadonnées mobiles. Dans cet article, nous étudions la vie privée mobile en termes d'identifiabilité de l'utilisateur du point de vue des adversaires de la vie privée. L'identification des utilisateurs dans deux ensembles de données provenant de la même source de données ou de deux sources de données différentes est généralement formulée comme un problème d'affectation linéaire (LAP), dans lequel la matrice des coûts des utilisateurs est générée par une seule mesure de distance. Cependant, l'identification de l'utilisateur via une seule mesure de distance peut entraîner une grande partie de fausses correspondances, en particulier lorsque seuls quelques utilisateurs coexistent entre ces deux ensembles de données. En outre, la complexité de calcul cubique du LAP limite l'échelle de l'analyse d'identification de l'utilisateur. Dans cet article, nous proposons un cadre d'appariement d'ensembles multifonctions pour améliorer la précision de l'identification de l'utilisateur sur la base d'une règle de vote à la majorité, en intégrant plusieurs mesures de distance. La complexité de calcul de l'algorithme de correspondance d'ensemble proposé est d'un ordre de grandeur inférieur à celui de l'approche basée sur une distance unique, qui résulte de la résolution d'un LAP sur une matrice très clairsemée plutôt que sur une matrice dense. Les expériences démontrent les performances supérieures de notre cadre de correspondance d'ensemble évolutif proposé en ce qui concerne la précision de la correspondance ainsi que la vulnérabilité de la vie privée des abonnés au réseau mobile.

Translated Description (Spanish)

La privacidad móvil es muy preocupante en la era del big data móvil, ya que los comportamientos de movilidad de los usuarios son sensibles a la privacidad y únicos. Los ataques de identificación de usuarios consisten en una de las preocupaciones de privacidad más críticas en el big data móvil. En este documento, estudiamos la privacidad móvil en términos de identificabilidad del usuario desde la perspectiva de los adversarios de la privacidad. La identificación del usuario en dos conjuntos de datos de la misma fuente de datos o dos fuentes de datos diferentes generalmente se formula como un problema de asignación lineal (LAP), en el que la matriz de costos de los usuarios se genera mediante una sola medida de distancia. Sin embargo, la identificación del usuario a través de una sola medida de distancia puede conducir a una gran parte de coincidencias falsas, especialmente cuando solo coexisten unos pocos usuarios en estos dos conjuntos de datos. Además, la complejidad computacional cúbica de LAP limita la escala del análisis de identificación del usuario. En este documento, proponemos un marco de coincidencia de conjuntos de múltiples funciones para mejorar la precisión de la identificación del usuario basada en una regla de votación por mayoría, mediante la integración de múltiples medidas de distancia. La complejidad computacional del algoritmo de emparejamiento de conjuntos propuesto es un orden de magnitud menor que la del enfoque basado en una sola distancia, que resulta de resolver un LAP en una matriz altamente dispersa en lugar de una matriz densa. Los experimentos demuestran el rendimiento superior de nuestro marco de comparación de conjuntos escalable propuesto con respecto a la precisión de la comparación, así como la vulnerabilidad de la privacidad de los suscriptores de la red móvil.

Files

09094666.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:3515e173dda270785dda816b1b46ff5f
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
خصوصية الهاتف المحمول: مطابقة المجموعة القابلة للتطوير لهجمات تحديد هوية المستخدم
Translated title (French)
Confidentialité mobile : correspondance d'ensemble évolutive pour les attaques d'identification d'utilisateur
Translated title (Spanish)
Privacidad móvil: coincidencia de conjunto escalable para ataques de identificación de usuario

Identifiers

Other
https://openalex.org/W3028214318
DOI
10.1109/access.2020.2995152

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1833521484
  • https://openalex.org/W1982300822
  • https://openalex.org/W1987228002
  • https://openalex.org/W2013029404
  • https://openalex.org/W2045686369
  • https://openalex.org/W2061204737
  • https://openalex.org/W2076554191
  • https://openalex.org/W2115240023
  • https://openalex.org/W2121947440
  • https://openalex.org/W2135930857
  • https://openalex.org/W2139688603
  • https://openalex.org/W2142406320
  • https://openalex.org/W2157355837
  • https://openalex.org/W2159024459
  • https://openalex.org/W2168770012
  • https://openalex.org/W2275165515
  • https://openalex.org/W2283587406
  • https://openalex.org/W2323121671
  • https://openalex.org/W2339803498
  • https://openalex.org/W2406694909
  • https://openalex.org/W2426948338
  • https://openalex.org/W2579086357
  • https://openalex.org/W2613582136
  • https://openalex.org/W2742257485
  • https://openalex.org/W2755255798
  • https://openalex.org/W2771725595
  • https://openalex.org/W2774941429
  • https://openalex.org/W2792648564
  • https://openalex.org/W2799924119
  • https://openalex.org/W2886639917
  • https://openalex.org/W2893136476
  • https://openalex.org/W2895089853
  • https://openalex.org/W2913599868
  • https://openalex.org/W2964344330
  • https://openalex.org/W3099827099
  • https://openalex.org/W3103861542
  • https://openalex.org/W4232478844