Published January 1, 2020 | Version v1
Publication Open

DSPBench: A Suite of Benchmark Applications for Distributed Data Stream Processing Systems

  • 1. Universidade Federal do Rio Grande do Sul
  • 2. Pontifícia Universidade Católica do Rio Grande do Sul
  • 3. University of Pisa

Description

Applications characterized by the continuous processing of large data streams have recently attracted the attention of the scientific community and industrial stakeholders.The need of high-level programming tools has led to the design of Data Stream Processing Systems (DSPSs) able to ease the development of streaming applications in distributed computing environments.Several systems of this kind have been released and currently maintained as open source projects, like Apache Storm and Spark Streaming.Although some benchmark applications are often used by the scientific community to test and evaluate new techniques to improve the performance and usability of DSPSs, the available benchmark suites are still lacking of representative workloads coming from the different areas of interest in the stream processing domain.The goal of this paper is to present a new benchmark suite composed of 15 applications coming from areas like Finance, Telecommunication, Sensor Networks, Social Networks and others.The paper describes in detail the nature of these applications, their full workload characterization in terms of selectivity, processing cost, input size and overall memory occupation, and provides a first assessment of the usefulness of our benchmark suite to compare real DSPSs by selecting Apache Storm and Spark Streaming for this analysis.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

جذبت التطبيقات التي تتميز بالمعالجة المستمرة لتدفقات البيانات الكبيرة مؤخرًا انتباه المجتمع العلمي وأصحاب المصلحة الصناعيين. أدت الحاجة إلى أدوات برمجة عالية المستوى إلى تصميم أنظمة معالجة تدفق البيانات (DSPSs) القادرة على تسهيل تطوير تطبيقات البث في بيئات الحوسبة الموزعة. تم إصدار العديد من الأنظمة من هذا النوع وصيانتها حاليًا كمشاريع مفتوحة المصدر، مثل Apache Storm و Spark Streaming. على الرغم من أن بعض التطبيقات المعيارية غالبًا ما يستخدمها المجتمع العلمي لاختبار و تقييم التقنيات الجديدة لتحسين أداء وسهولة استخدام DSPSs، لا تزال المجموعات المعيارية المتاحة تفتقر إلى أحمال العمل التمثيلية القادمة من مجالات الاهتمام المختلفة في مجال معالجة التدفق. الهدف من هذه الورقة هو تقديم مجموعة معيارية جديدة تتكون من 15 تطبيقًا قادمًا من مجالات مثل التمويل والاتصالات وشبكات الاستشعار والشبكات الاجتماعية وغيرها. تصف الورقة بالتفصيل طبيعة هذه التطبيقات وتوصيف عبء العمل الكامل من حيث الانتقائية وتكلفة المعالجة وحجم المدخلات ومهنة الذاكرة الإجمالية، وتوفر التقييم الأول لفائدة مجموعة المعايير الخاصة بنا لمقارنة DSPSs الحقيقية من خلال اختيار Apache Storm و Spark Streaming لهذا التحليل.

Translated Description (French)

Les applications caractérisées par le traitement continu de grands flux de données ont récemment attiré l'attention de la communauté scientifique et des parties prenantes industrielles. Le besoin d'outils de programmation de haut niveau a conduit à la conception de systèmes de traitement de flux de données (DSPS) capables de faciliter le développement d'applications de streaming dans des environnements informatiques distribués. Plusieurs systèmes de ce type ont été publiés et actuellement maintenus en tant que projets open source, comme Apache Storm et Spark Streaming. Bien que certaines applications de référence soient souvent utilisées par la communauté scientifique pour tester et évaluer de nouvelles techniques pour améliorer les performances et la convivialité des DSPS, les suites de référence disponibles manquent encore de charges de travail représentatives provenant des différents domaines d'intérêt dans le domaine du traitement des flux.L' objectif de cet article est de présenter une nouvelle suite de référence composée de 15 applications provenant de domaines tels que la finance, les télécommunications, les réseaux de capteurs, les réseaux sociaux et autres.L' article décrit en détail la nature de ces applications, leur caractérisation complète de la charge de travail en termes de sélectivité, de coût de traitement, de taille des entrées et d'occupation globale de la mémoire, et fournit une première évaluation de l'utilité de notre suite de benchmark pour comparer des DSPS réels en sélectionnant Apache Storm et Spark Streaming pour cette analyse.

Translated Description (Spanish)

Las aplicaciones caracterizadas por el procesamiento continuo de grandes flujos de datos han atraído recientemente la atención de la comunidad científica y las partes interesadas industriales. La necesidad de herramientas de programación de alto nivel ha llevado al diseño de sistemas de procesamiento de flujos de datos (DSPS) capaces de facilitar el desarrollo de aplicaciones de transmisión en entornos informáticos distribuidos. Varios sistemas de este tipo se han lanzado y se mantienen actualmente como proyectos de código abierto, como Apache Storm y Spark Streaming. Aunque la comunidad científica a menudo utiliza algunas aplicaciones de referencia para probar y evaluar nuevas técnicas para mejorar el rendimiento y la usabilidad de los DSPS, las suites de referencia disponibles aún carecen de cargas de trabajo representativas provenientes de las diferentes áreas de interés en el dominio de procesamiento de flujos. El objetivo de este documento es presentar una nueva suite de referencia compuesta por 15 aplicaciones provenientes de áreas como Finanzas, Telecomunicaciones, Redes de sensores, Redes sociales y otros. El documento describe en detalle la naturaleza de estas aplicaciones, su caracterización completa de la carga de trabajo en términos de selectividad, costo de procesamiento, tamaño de entrada y ocupación general de la memoria, y proporciona una descripción detallada de la naturaleza de estas aplicaciones. primera evaluación de la utilidad de nuestra suite de referencia para comparar DSPS reales seleccionando Apache Storm y Spark Streaming para este análisis.

Files

09290133.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:692b2a8a2490b306b1dea9163db90294
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
DSPBench: مجموعة من التطبيقات المعيارية لأنظمة معالجة تدفق البيانات الموزعة
Translated title (French)
DSPBench : une suite d'applications de référence pour les systèmes de traitement de flux de données distribués
Translated title (Spanish)
DSPBench: un conjunto de aplicaciones de referencia para sistemas de procesamiento de flujos de datos distribuidos

Identifiers

Other
https://openalex.org/W3112724157
DOI
10.1109/access.2020.3043948

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Brazil

References

  • https://openalex.org/W1015086267
  • https://openalex.org/W122792823
  • https://openalex.org/W131879087
  • https://openalex.org/W1568192366
  • https://openalex.org/W1923836130
  • https://openalex.org/W1968075690
  • https://openalex.org/W1968999661
  • https://openalex.org/W1984220394
  • https://openalex.org/W1985148591
  • https://openalex.org/W1988526405
  • https://openalex.org/W1991532004
  • https://openalex.org/W1991968851
  • https://openalex.org/W2003258271
  • https://openalex.org/W2003272624
  • https://openalex.org/W2010422203
  • https://openalex.org/W2013785969
  • https://openalex.org/W2017203676
  • https://openalex.org/W2018165284
  • https://openalex.org/W2020732464
  • https://openalex.org/W2031017487
  • https://openalex.org/W2052336939
  • https://openalex.org/W2061737399
  • https://openalex.org/W2065330745
  • https://openalex.org/W2070379602
  • https://openalex.org/W2071537834
  • https://openalex.org/W2072191088
  • https://openalex.org/W2074978750
  • https://openalex.org/W2081252467
  • https://openalex.org/W2081541668
  • https://openalex.org/W2083382909
  • https://openalex.org/W2092381580
  • https://openalex.org/W2096266510
  • https://openalex.org/W2096390285
  • https://openalex.org/W2099395665
  • https://openalex.org/W2104048515
  • https://openalex.org/W2119745055
  • https://openalex.org/W2121939154
  • https://openalex.org/W2124298185
  • https://openalex.org/W2128274460
  • https://openalex.org/W2128981355
  • https://openalex.org/W2149576945
  • https://openalex.org/W2150713082
  • https://openalex.org/W2151893987
  • https://openalex.org/W2152558130
  • https://openalex.org/W2153811040
  • https://openalex.org/W2153972927
  • https://openalex.org/W2155072926
  • https://openalex.org/W2156978841
  • https://openalex.org/W2158327862
  • https://openalex.org/W2159844592
  • https://openalex.org/W2163764145
  • https://openalex.org/W2586025740
  • https://openalex.org/W2614659073
  • https://openalex.org/W2763018317
  • https://openalex.org/W2809594702
  • https://openalex.org/W2916596859
  • https://openalex.org/W2945790252
  • https://openalex.org/W2952604789
  • https://openalex.org/W3030542966
  • https://openalex.org/W3104065274
  • https://openalex.org/W3106144025
  • https://openalex.org/W4243544668
  • https://openalex.org/W4245015297