Published January 1, 2020 | Version v1
Publication Open

Boosting Big Data Streaming Applications in Clouds With BurstFlow

  • 1. Universidade Federal do Rio Grande do Sul
  • 2. University of Toronto
  • 3. University of Beira Interior
  • 4. Universidade Lusófona
  • 5. Polytechnic Institute of Portalegre
  • 6. Universidad de Salamanca

Description

The rapid growth of stream applications in financial markets, health care, education, social media, and sensor networks represents a remarkable milestone for data processing and analytic in recent years, leading to new challenges to handle Big Data in real-time. Traditionally, a single cloud infrastructure often holds the deployment of Stream Processing applications because it has extensive and adaptative virtual computing resources. Hence, data sources send data from distant and different locations of the cloud infrastructure, increasing the application latency. The cloud infrastructure may be geographically distributed and it requires to run a set of frameworks to handle communication. These frameworks often comprise a Message Queue System and a Stream Processing Framework. The frameworks explore Multi-Cloud deploying each service in a different cloud and communication via high latency network links. This creates challenges to meet real-time application requirements because the data streams have different and unpredictable latencies forcing cloud providers' communication systems to adjust to the environment changes continually. Previous works explore static micro-batch demonstrating its potential to overcome communication issues. This paper introduces BurstFlow, a tool for enhancing communication across data sources located at the edges of the Internet and Big Data Stream Processing applications located in cloud infrastructures. BurstFlow introduces a strategy for adjusting the micro-batch sizes dynamically according to the time required for communication and computation. BurstFlow also presents an adaptive data partition policy for distributing incoming streams across available machines by considering memory and CPU capacities. The experiments use a real-world multi-cloud deployment showing that BurstFlow can reduce the execution time up to 77% when compared to the state-of-the-art solutions, improving CPU efficiency by up to 49%.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يمثل النمو السريع لتطبيقات البث في الأسواق المالية والرعاية الصحية والتعليم ووسائل التواصل الاجتماعي وشبكات الاستشعار علامة بارزة في معالجة البيانات والتحليل في السنوات الأخيرة، مما يؤدي إلى تحديات جديدة للتعامل مع البيانات الضخمة في الوقت الفعلي. تقليديًا، غالبًا ما تحتفظ بنية تحتية سحابية واحدة بنشر تطبيقات معالجة التدفق لأنها تحتوي على موارد حوسبة افتراضية واسعة النطاق وقابلة للتكيف. وبالتالي، ترسل مصادر البيانات البيانات من مواقع بعيدة ومختلفة من البنية التحتية السحابية، مما يزيد من زمن وصول التطبيق. قد تكون البنية التحتية السحابية موزعة جغرافيًا وتتطلب تشغيل مجموعة من الأطر للتعامل مع الاتصالات. غالبًا ما تشتمل هذه الأطر على نظام قائمة انتظار الرسائل وإطار معالجة الدفق. تستكشف الأطر نشر السحابة المتعددة لكل خدمة في سحابة واتصال مختلفين عبر روابط شبكة عالية الكمون. وهذا يخلق تحديات لتلبية متطلبات التطبيق في الوقت الفعلي لأن تدفقات البيانات لها فترات تأخير مختلفة وغير متوقعة مما يجبر أنظمة اتصالات مزودي الخدمات السحابية على التكيف مع التغيرات البيئية باستمرار. تستكشف الأعمال السابقة الدفعة الصغيرة الثابتة التي توضح قدرتها على التغلب على مشكلات الاتصال. تقدم هذه الورقة BurstFlow، وهي أداة لتعزيز الاتصال عبر مصادر البيانات الموجودة على حواف الإنترنت وتطبيقات معالجة تدفق البيانات الضخمة الموجودة في البنى التحتية السحابية. يقدم BurstFlow استراتيجية لضبط أحجام الدفعات الصغيرة ديناميكيًا وفقًا للوقت اللازم للتواصل والحساب. يقدم BurstFlow أيضًا سياسة تقسيم البيانات التكيفية لتوزيع التدفقات الواردة عبر الأجهزة المتاحة من خلال مراعاة قدرات الذاكرة ووحدة المعالجة المركزية. تستخدم التجارب نشرًا سحابيًا متعددًا في العالم الحقيقي يوضح أن BurstFlow يمكن أن يقلل من وقت التنفيذ بنسبة تصل إلى 77 ٪ عند مقارنته بالحلول الحديثة، مما يحسن كفاءة وحدة المعالجة المركزية بنسبة تصل إلى 49 ٪.

Translated Description (French)

La croissance rapide des applications de flux sur les marchés financiers, les soins de santé, l'éducation, les médias sociaux et les réseaux de capteurs représente une étape remarquable pour le traitement et l'analyse des données ces dernières années, entraînant de nouveaux défis pour gérer les mégadonnées en temps réel. Traditionnellement, une seule infrastructure cloud permet souvent le déploiement d'applications Stream Processing car elle dispose de ressources informatiques virtuelles étendues et adaptatives. Par conséquent, les sources de données envoient des données depuis des emplacements distants et différents de l'infrastructure cloud, ce qui augmente la latence des applications. L'infrastructure cloud peut être géographiquement distribuée et nécessite l'exécution d'un ensemble de cadres pour gérer la communication. Ces cadres comprennent souvent un système de file d'attente de messages et un cadre de traitement de flux. Les frameworks explorent le déploiement multi-cloud de chaque service dans un cloud différent et la communication via des liaisons réseau à haute latence. Cela crée des défis pour répondre aux exigences des applications en temps réel, car les flux de données ont des latences différentes et imprévisibles, ce qui oblige les systèmes de communication des fournisseurs de cloud à s'adapter continuellement aux changements de l'environnement. Des travaux antérieurs explorent des micro-lots statiques démontrant leur potentiel à surmonter les problèmes de communication. Cet article présente BurstFlow, un outil permettant d'améliorer la communication entre les sources de données situées à la périphérie d'Internet et les applications de traitement de flux de données volumineuses situées dans les infrastructures cloud. BurstFlow introduit une stratégie d'ajustement dynamique des tailles de micro-lots en fonction du temps nécessaire à la communication et au calcul. BurstFlow présente également une politique de partition de données adaptative pour distribuer les flux entrants sur les machines disponibles en tenant compte des capacités de mémoire et de processeur. Les expériences utilisent un déploiement multi-cloud réel montrant que BurstFlow peut réduire le temps d'exécution jusqu'à 77 % par rapport aux solutions de pointe, améliorant l'efficacité du processeur jusqu'à 49 %.

Translated Description (Spanish)

El rápido crecimiento de las aplicaciones de transmisión en los mercados financieros, la atención médica, la educación, las redes sociales y los sensores representa un hito notable para el procesamiento de datos y la analítica en los últimos años, lo que ha llevado a nuevos desafíos para manejar Big Data en tiempo real. Tradicionalmente, una sola infraestructura en la nube a menudo contiene la implementación de aplicaciones de procesamiento de flujos porque tiene recursos informáticos virtuales extensos y adaptables. Por lo tanto, las fuentes de datos envían datos desde ubicaciones distantes y diferentes de la infraestructura de la nube, lo que aumenta la latencia de la aplicación. La infraestructura de la nube puede estar distribuida geográficamente y requiere ejecutar un conjunto de marcos para manejar la comunicación. Estos marcos a menudo comprenden un Sistema de Colas de Mensajes y un Marco de Procesamiento de Flujos. Los marcos exploran la implementación multicloud de cada servicio en una nube diferente y la comunicación a través de enlaces de red de alta latencia. Esto crea desafíos para cumplir con los requisitos de las aplicaciones en tiempo real porque los flujos de datos tienen latencias diferentes e impredecibles, lo que obliga a los sistemas de comunicación de los proveedores de la nube a adaptarse continuamente a los cambios del entorno. Trabajos anteriores exploran microlotes estáticos que demuestran su potencial para superar problemas de comunicación. Este documento presenta BurstFlow, una herramienta para mejorar la comunicación entre las fuentes de datos ubicadas en los bordes de Internet y las aplicaciones de procesamiento de Big Data Stream ubicadas en las infraestructuras de la nube. BurstFlow introduce una estrategia para ajustar los tamaños de los microlotes dinámicamente de acuerdo con el tiempo requerido para la comunicación y el cálculo. BurstFlow también presenta una política de partición de datos adaptativa para distribuir flujos entrantes a través de las máquinas disponibles considerando las capacidades de memoria y CPU. Los experimentos utilizan una implementación de múltiples nubes en el mundo real que muestra que BurstFlow puede reducir el tiempo de ejecución hasta en un 77% en comparación con las soluciones de última generación, mejorando la eficiencia de la CPU hasta en un 49%.

Files

09281110.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5e5852f4142d207505ee83af6155f091
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تعزيز تطبيقات تدفق البيانات الضخمة في السحابة مع BurstFlow
Translated title (French)
Booster les applications de streaming de données volumineuses dans les nuages avec BurstFlow
Translated title (Spanish)
Impulso de las aplicaciones de transmisión de Big Data en las nubes con BurstFlow

Identifiers

Other
https://openalex.org/W3111606561
DOI
10.1109/access.2020.3042739

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Brazil

References

  • https://openalex.org/W2008503861
  • https://openalex.org/W2017203676
  • https://openalex.org/W2042604625
  • https://openalex.org/W2052494474
  • https://openalex.org/W2141684031
  • https://openalex.org/W2149140091
  • https://openalex.org/W2193121729
  • https://openalex.org/W2476844261
  • https://openalex.org/W2522886301
  • https://openalex.org/W2527777632
  • https://openalex.org/W2533068969
  • https://openalex.org/W2542459869
  • https://openalex.org/W2755181079
  • https://openalex.org/W2781260215
  • https://openalex.org/W2781729923
  • https://openalex.org/W2891800686
  • https://openalex.org/W2994134668
  • https://openalex.org/W3004292356
  • https://openalex.org/W3013487551
  • https://openalex.org/W3013976177
  • https://openalex.org/W3021951958
  • https://openalex.org/W3035723967
  • https://openalex.org/W3080922210
  • https://openalex.org/W3086007304
  • https://openalex.org/W3093042324
  • https://openalex.org/W3093216970
  • https://openalex.org/W4244634541