Published February 20, 2024 | Version v1
Publication Open

The least sample size essential for detecting changes in clustering solutions of streaming datasets

  • 1. University of Peshawar
  • 2. American University of the Middle East
  • 3. Kohat University of Science and Technology

Description

The clustering analysis approach treats multivariate data tuples as objects and groups them into clusters based on their similarities or dissimilarities within the dataset. However, in modern world, a significant volume of data is continuously generated from diverse sources over time. In these dynamic scenarios, the data is not static but continually evolves. Consequently, the interesting patterns and inherent subgroups within the datasets also change and develop over time. The researchers have paid special attention to monitoring changes in cluster solutions of evolving streams. For this matter, several algorithms have been proposed in the literature. However, to date, no study has examined the effect of variability in cluster sizes on the evolution of cluster solutions. Moreover, no guidance is available on determining the impact of cluster sizes on the type of changes they experience in the streams. In the present simulation study using artificial datasets, the evolution of clusters is examined concerning the variability in cluster sizes. The findings are substantial because tracing and monitoring the changes in clustering solutions have a wide range of applications in every field of research. This study determines the minimum sample size required in the clustering of time-stamped datasets.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يتعامل نهج تحليل المجموعات مع مجموعات البيانات متعددة المتغيرات على أنها كائنات ويجمعها في مجموعات بناءً على أوجه التشابه أو الاختلاف داخل مجموعة البيانات. ومع ذلك، في العالم الحديث، يتم إنشاء حجم كبير من البيانات باستمرار من مصادر متنوعة مع مرور الوقت. في هذه السيناريوهات الديناميكية، لا تكون البيانات ثابتة ولكنها تتطور باستمرار. وبالتالي، فإن الأنماط المثيرة للاهتمام والمجموعات الفرعية المتأصلة داخل مجموعات البيانات تتغير وتتطور أيضًا بمرور الوقت. وقد أولى الباحثون اهتمامًا خاصًا لرصد التغييرات في الحلول العنقودية للتدفقات المتطورة. بالنسبة لهذه المسألة، تم اقتراح العديد من الخوارزميات في الأدبيات. ومع ذلك، حتى الآن، لم تفحص أي دراسة تأثير التباين في أحجام المجموعات على تطور حلول المجموعات. علاوة على ذلك، لا توجد إرشادات متاحة بشأن تحديد تأثير أحجام المجموعات على نوع التغييرات التي يواجهونها في التدفقات. في دراسة المحاكاة الحالية باستخدام مجموعات البيانات الاصطناعية، يتم فحص تطور المجموعات فيما يتعلق بالتباين في أحجام المجموعات. النتائج كبيرة لأن تتبع ورصد التغييرات في حلول التجميع العنقودي لها مجموعة واسعة من التطبيقات في كل مجال من مجالات البحث. تحدد هذه الدراسة الحد الأدنى لحجم العينة المطلوب في تجميع مجموعات البيانات المختومة بالوقت.

Translated Description (French)

L'approche d'analyse de clustering traite les tuples de données multivariées comme des objets et les regroupe en clusters en fonction de leurs similitudes ou de leurs dissemblances au sein de l'ensemble de données. Cependant, dans le monde moderne, un volume important de données est continuellement généré à partir de diverses sources au fil du temps. Dans ces scénarios dynamiques, les données ne sont pas statiques mais évoluent continuellement. Par conséquent, les modèles intéressants et les sous-groupes inhérents au sein des ensembles de données changent et se développent également au fil du temps. Les chercheurs ont accordé une attention particulière au suivi des changements dans les solutions de cluster des flux en évolution. Pour cela, plusieurs algorithmes ont été proposés dans la littérature. Cependant, à ce jour, aucune étude n'a examiné l'effet de la variabilité de la taille des grappes sur l'évolution des solutions de grappes. De plus, aucune orientation n'est disponible sur la détermination de l'impact de la taille des grappes sur le type de changements qu'elles subissent dans les flux. Dans la présente étude de simulation utilisant des ensembles de données artificiels, l'évolution des grappes est examinée en ce qui concerne la variabilité de la taille des grappes. Les résultats sont substantiels car le traçage et le suivi des changements dans les solutions de clustering ont un large éventail d'applications dans tous les domaines de recherche. Cette étude détermine la taille minimale de l'échantillon requise dans le regroupement des ensembles de données horodatés.

Translated Description (Spanish)

El enfoque de análisis de agrupación trata las tuplas de datos multivariantes como objetos y las agrupa en grupos en función de sus similitudes o diferencias dentro del conjunto de datos. Sin embargo, en el mundo moderno, un volumen significativo de datos se genera continuamente a partir de diversas fuentes a lo largo del tiempo. En estos escenarios dinámicos, los datos no son estáticos, sino que evolucionan continuamente. En consecuencia, los patrones interesantes y los subgrupos inherentes dentro de los conjuntos de datos también cambian y se desarrollan con el tiempo. Los investigadores han prestado especial atención al seguimiento de los cambios en las soluciones de clúster de los flujos en evolución. Para este asunto, se han propuesto varios algoritmos en la literatura. Sin embargo, hasta la fecha, ningún estudio ha examinado el efecto de la variabilidad en los tamaños de los clústeres sobre la evolución de las soluciones de clústeres. Además, no se dispone de orientación para determinar el impacto de los tamaños de los clústeres en el tipo de cambios que experimentan en los arroyos. En el presente estudio de simulación utilizando conjuntos de datos artificiales, se examina la evolución de los conglomerados con respecto a la variabilidad en los tamaños de los conglomerados. Los hallazgos son sustanciales porque rastrear y monitorear los cambios en las soluciones de agrupamiento tiene una amplia gama de aplicaciones en todos los campos de investigación. Este estudio determina el tamaño mínimo de muestra requerido en la agrupación de conjuntos de datos con sello de tiempo.

Files

journal.pone.0297355&type=printable.pdf

Files (1.5 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:6b1fab7139147f2655d697cbdbadf309
1.5 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
أقل حجم عينة ضروري للكشف عن التغييرات في حلول التجميع العنقودي لمجموعات بيانات التدفق
Translated title (French)
La plus petite taille d'échantillon essentielle pour détecter les changements dans les solutions de clustering des ensembles de données en continu
Translated title (Spanish)
El menor tamaño de muestra esencial para detectar cambios en las soluciones de agrupación de conjuntos de datos de transmisión

Identifiers

Other
https://openalex.org/W4391962541
DOI
10.1371/journal.pone.0297355

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1500950216
  • https://openalex.org/W1608295474
  • https://openalex.org/W1980435364
  • https://openalex.org/W1998819761
  • https://openalex.org/W2043799446
  • https://openalex.org/W2054274648
  • https://openalex.org/W2076089275
  • https://openalex.org/W2084341220
  • https://openalex.org/W2135847000
  • https://openalex.org/W2141685271
  • https://openalex.org/W2154065358
  • https://openalex.org/W2155885544
  • https://openalex.org/W2157355630
  • https://openalex.org/W2293546752
  • https://openalex.org/W2777948323
  • https://openalex.org/W2795483971
  • https://openalex.org/W2951416632
  • https://openalex.org/W2971565213
  • https://openalex.org/W2982595487
  • https://openalex.org/W3017323935
  • https://openalex.org/W3094453699
  • https://openalex.org/W3154066508
  • https://openalex.org/W3167159514
  • https://openalex.org/W4200305756
  • https://openalex.org/W4223429461
  • https://openalex.org/W4242207363
  • https://openalex.org/W4311551350
  • https://openalex.org/W974986761