Privacy-preserving data (stream) mining techniques and their impact on data mining accuracy: a systematic literature review
- 1. Auckland University of Technology
- 2. National University of Computer and Emerging Sciences
Description
Abstract This study investigates existing input privacy-preserving data mining (PPDM) methods and privacy-preserving data stream mining methods (PPDSM), including their strengths and weaknesses. A further analysis was carried out to determine to what extent existing PPDM/PPDSM methods address the trade-off between data mining accuracy and data privacy which is a significant concern in the area. The systematic literature review was conducted using data extracted from 104 primary studies from 5 reputed databases. The scope of the study was defined using three research questions and adequate inclusion and exclusion criteria. According to the results of our study, we divided existing PPDM methods into four categories: perturbation, non-perturbation, secure multi-party computation, and combinations of PPDM methods. These methods have different strengths and weaknesses concerning the accuracy, privacy, time consumption, and more. Data stream mining must face additional challenges such as high volume, high speed, and computational complexity. The techniques proposed for PPDSM are less in number than the PPDM. We categorized PPDSM techniques into three categories (perturbation, non-perturbation, and other). Most PPDM methods can be applied to classification, followed by clustering and association rule mining. It was observed that numerous studies have identified and discussed the accuracy-privacy trade-off. However, there is a lack of studies providing solutions to the issue, especially in PPDSM.
Translated Descriptions
Translated Description (Arabic)
تبحث هذه الدراسة في طرق استخراج البيانات القائمة التي تحافظ على خصوصية المدخلات (PPDM) وطرق استخراج دفق البيانات التي تحافظ على الخصوصية (PPDSM)، بما في ذلك نقاط قوتها وضعفها. تم إجراء تحليل إضافي لتحديد إلى أي مدى تعالج طرق PPDM/PPDSM الحالية المفاضلة بين دقة استخراج البيانات وخصوصية البيانات التي تشكل مصدر قلق كبير في المنطقة. تم إجراء مراجعة منهجية للأدبيات باستخدام بيانات مستخرجة من 104 دراسات أولية من 5 قواعد بيانات مشهورة. تم تحديد نطاق الدراسة باستخدام ثلاثة أسئلة بحثية ومعايير إدراج واستبعاد كافية. وفقًا لنتائج دراستنا، قمنا بتقسيم طرق PPDM الحالية إلى أربع فئات: الاضطراب، وعدم الاضطراب، والحساب الآمن متعدد الأطراف، ومجموعات من طرق PPDM. هذه الأساليب لها نقاط قوة وضعف مختلفة فيما يتعلق بالدقة والخصوصية واستهلاك الوقت والمزيد. يجب أن يواجه تعدين تدفق البيانات تحديات إضافية مثل الحجم الكبير والسرعة العالية والتعقيد الحسابي. التقنيات المقترحة لـ PPDSM أقل عددًا من PPDM. قمنا بتصنيف تقنيات PPDSM إلى ثلاث فئات (الاضطراب، عدم الاضطراب، وغيرها). يمكن تطبيق معظم طرق PPDM على التصنيف، تليها تعدين قواعد التجميع والارتباط. ولوحظ أن العديد من الدراسات قد حددت وناقشت المقايضة بين الدقة والخصوصية. ومع ذلك، هناك نقص في الدراسات التي تقدم حلولًا لهذه القضية، خاصة في PPDSM.Translated Description (French)
Résumé Cette étude examine les méthodes existantes d'exploration de données de préservation de la vie privée (PPDM) et les méthodes d'exploration de flux de données de préservation de la vie privée (PPDSM), y compris leurs forces et leurs faiblesses. Une analyse plus approfondie a été effectuée pour déterminer dans quelle mesure les méthodes PPDM/PPDSM existantes abordent le compromis entre la précision de l'exploration de données et la confidentialité des données, ce qui est une préoccupation importante dans la région. La revue systématique de la littérature a été réalisée à partir de données extraites de 104 études primaires provenant de 5 bases de données réputées. La portée de l'étude a été définie à l'aide de trois questions de recherche et de critères d'inclusion et d'exclusion adéquats. Selon les résultats de notre étude, nous avons divisé les méthodes PPDM existantes en quatre catégories : perturbation, non-perturbation, calcul multipartite sécurisé et combinaisons de méthodes PPDM. Ces méthodes ont différentes forces et faiblesses en ce qui concerne l'exactitude, la confidentialité, la consommation de temps, et plus encore. L'exploration de flux de données doit faire face à des défis supplémentaires tels qu'un volume élevé, une vitesse élevée et une complexité informatique. Les techniques proposées pour le PPDSM sont moins nombreuses que le PPDM. Nous avons classé les techniques PPDSM en trois catégories (perturbation, non-perturbation et autres). La plupart des méthodes PPDM peuvent être appliquées à la classification, suivie du regroupement et de l'extraction de règles d'association. Il a été observé que de nombreuses études ont identifié et discuté du compromis exactitude - confidentialité. Cependant, il y a un manque d'études apportant des solutions à la question, en particulier dans le PPDSM.Translated Description (Spanish)
Resumen Este estudio investiga los métodos existentes de minería de datos para preservar la privacidad (PPDM) y los métodos de minería de flujo de datos para preservar la privacidad (PPDSM), incluidas sus fortalezas y debilidades. Se llevó a cabo un análisis adicional para determinar en qué medida los métodos PPDM/PPDSM existentes abordan la compensación entre la precisión de la minería de datos y la privacidad de los datos, que es una preocupación importante en el área. La revisión sistemática de la literatura se realizó utilizando datos extraídos de 104 estudios primarios de 5 bases de datos de renombre. El alcance del estudio se definió utilizando tres preguntas de investigación y criterios adecuados de inclusión y exclusión. De acuerdo con los resultados de nuestro estudio, dividimos los métodos de PPDM existentes en cuatro categorías: perturbación, no perturbación, cálculo seguro de múltiples partes y combinaciones de métodos de PPDM. Estos métodos tienen diferentes fortalezas y debilidades con respecto a la precisión, la privacidad, el consumo de tiempo y más. La minería de flujo de datos debe enfrentar desafíos adicionales como alto volumen, alta velocidad y complejidad computacional. Las técnicas propuestas para PPDSM son menos numerosas que las PPDM. Categorizamos las técnicas de PPDSM en tres categorías (perturbación, no perturbación y otras). La mayoría de los métodos de PPDM se pueden aplicar a la clasificación, seguidos de la minería de reglas de agrupación y asociación. Se observó que numerosos estudios han identificado y discutido la compensación entre precisión y privacidad. Sin embargo, hay una falta de estudios que brinden soluciones al problema, especialmente en PPDSM.Files
s10462-023-10425-3.pdf.pdf
Files
(1.7 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:72601b4a8c0a741f99a84665f4ae2013
|
1.7 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تقنيات التنقيب عن البيانات للحفاظ على الخصوصية وتأثيرها على دقة التنقيب عن البيانات: مراجعة منهجية للأدبيات
- Translated title (French)
- Les techniques d'exploration de données préservant la vie privée (flux) et leur impact sur la précision de l'exploration de données : une revue systématique de la littérature
- Translated title (Spanish)
- Técnicas de minería de datos que preservan la privacidad (flujo) y su impacto en la precisión de la minería de datos: una revisión sistemática de la literatura
Identifiers
- Other
- https://openalex.org/W4321496408
- DOI
- 10.1007/s10462-023-10425-3
References
- https://openalex.org/W140692929
- https://openalex.org/W142920890
- https://openalex.org/W1544579602
- https://openalex.org/W1561677670
- https://openalex.org/W1569223999
- https://openalex.org/W1586992260
- https://openalex.org/W1759057552
- https://openalex.org/W1888231326
- https://openalex.org/W1953010162
- https://openalex.org/W1982459293
- https://openalex.org/W1987213187
- https://openalex.org/W1990408580
- https://openalex.org/W1990534671
- https://openalex.org/W1991847410
- https://openalex.org/W2008195987
- https://openalex.org/W2010861517
- https://openalex.org/W2020422256
- https://openalex.org/W2027223797
- https://openalex.org/W2035439597
- https://openalex.org/W2043951339
- https://openalex.org/W2044353873
- https://openalex.org/W2045008025
- https://openalex.org/W2046763506
- https://openalex.org/W2053221630
- https://openalex.org/W2057649760
- https://openalex.org/W2063766188
- https://openalex.org/W2069347072
- https://openalex.org/W2075563352
- https://openalex.org/W2075721911
- https://openalex.org/W2083959257
- https://openalex.org/W2097354468
- https://openalex.org/W2097483454
- https://openalex.org/W2097999795
- https://openalex.org/W2099504463
- https://openalex.org/W2106956101
- https://openalex.org/W2118090325
- https://openalex.org/W2119000911
- https://openalex.org/W2125130625
- https://openalex.org/W2126991914
- https://openalex.org/W2129870696
- https://openalex.org/W2134167315
- https://openalex.org/W2136114025
- https://openalex.org/W2138737362
- https://openalex.org/W2160553465
- https://openalex.org/W2163349208
- https://openalex.org/W2168635375
- https://openalex.org/W2170908348
- https://openalex.org/W2197747611
- https://openalex.org/W2234785713
- https://openalex.org/W2245178801
- https://openalex.org/W2426160123
- https://openalex.org/W2427735843
- https://openalex.org/W2481848121
- https://openalex.org/W2483050722
- https://openalex.org/W2485338169
- https://openalex.org/W2490689622
- https://openalex.org/W2513224826
- https://openalex.org/W2517277540
- https://openalex.org/W2520169748
- https://openalex.org/W2541298947
- https://openalex.org/W2543747391
- https://openalex.org/W2549006254
- https://openalex.org/W2549955619
- https://openalex.org/W2557682302
- https://openalex.org/W2579582550
- https://openalex.org/W2587271652
- https://openalex.org/W2592072561
- https://openalex.org/W2621204331
- https://openalex.org/W2735136984
- https://openalex.org/W2749982941
- https://openalex.org/W2769353087
- https://openalex.org/W2772306362
- https://openalex.org/W2782150645
- https://openalex.org/W2785629512
- https://openalex.org/W2789420038
- https://openalex.org/W2888418596
- https://openalex.org/W2898579425
- https://openalex.org/W2899955655
- https://openalex.org/W2904390559
- https://openalex.org/W2908411463
- https://openalex.org/W2912046150
- https://openalex.org/W2942315182
- https://openalex.org/W2945156914
- https://openalex.org/W2945326446
- https://openalex.org/W2946681720
- https://openalex.org/W2950414350
- https://openalex.org/W2964122540
- https://openalex.org/W2972218761
- https://openalex.org/W2982753995
- https://openalex.org/W2997967197
- https://openalex.org/W2998378988
- https://openalex.org/W3011635988
- https://openalex.org/W3012094467
- https://openalex.org/W3016713431
- https://openalex.org/W3024259290
- https://openalex.org/W3035851800
- https://openalex.org/W3040469779
- https://openalex.org/W3046367122
- https://openalex.org/W3098698560
- https://openalex.org/W3127263474
- https://openalex.org/W3130623383
- https://openalex.org/W3184023421
- https://openalex.org/W3185636733
- https://openalex.org/W3194592274
- https://openalex.org/W3195772876
- https://openalex.org/W35790489
- https://openalex.org/W36789586
- https://openalex.org/W4200631100
- https://openalex.org/W4221127089
- https://openalex.org/W4224021416
- https://openalex.org/W4224318489
- https://openalex.org/W4233919777
- https://openalex.org/W4242739545
- https://openalex.org/W4246567820
- https://openalex.org/W4281257047
- https://openalex.org/W4281711208
- https://openalex.org/W4285091305
- https://openalex.org/W4396542695
- https://openalex.org/W988376896