Data Processing Model to Perform Big Data Analytics in Hybrid Infrastructures
Creators
- 1. ORCID
- 2. Universidade Federal do Rio Grande do Sul
- 3. Universidade do Vale do Rio dos Sinos
- 4. Universidad de Salamanca
- 5. Polytechnic Institute of Portalegre
Description
Big Data applications are present in many areas such as financial markets, search engines, stream services, health care, social networks, and so on. Data analysis provides value to information for organizations. Classical Cloud Computing represents a robust architecture to perform complex and large-scale computing for these areas. The main challenges are the user's unknowledge about Cloud infrastructure, the requirement needed for improving performance, and the resource management to maintain stable processing. In these difficulties, an inadequate solution can lead to users overestimate or underestimate the number of computational resources, which drives to the budget increases. One way to work around this problem is to make use of Volunteer Computing since it provides distributed computational resources at free monetary cost. However, a volatile machine behavior is a problem to address in Big Data data distributions. Thus, this work proposes a data distribution model composed of Cloud Computing and Volunteer Computing environments in a hybrid fashion for Big Data analytics. The contributions of this work are: i) the required evaluation to enable efficient deployment of Big Data in hybrid infrastructures; ii) the development of an HR_Alloc Algorithm for establishing the data placement to Big Data applications; iii) a model to resource allocation in hybrid infrastructures. The obtained results indicate the feasibility of using a hybrid infrastructure with up to 35% of unstable machines in the worst-case scenario, without losing performance and a monetary cost lower than 20% in comparison to Classical Cloud Computing. Also, communication costs decrease up to 57.14% in the best-case scenario due to load balancing.
Translated Descriptions
Translated Description (Arabic)
تطبيقات البيانات الضخمة موجودة في العديد من المجالات مثل الأسواق المالية ومحركات البحث وخدمات البث والرعاية الصحية والشبكات الاجتماعية وما إلى ذلك. يوفر تحليل البيانات قيمة للمعلومات للمنظمات. تمثل الحوسبة السحابية الكلاسيكية بنية قوية لأداء الحوسبة المعقدة وواسعة النطاق لهذه المجالات. تتمثل التحديات الرئيسية في عدم معرفة المستخدم بالبنية التحتية السحابية، والمتطلبات اللازمة لتحسين الأداء، وإدارة الموارد للحفاظ على معالجة مستقرة. في هذه الصعوبات، يمكن أن يؤدي الحل غير الكافي إلى المبالغة في تقدير عدد الموارد الحسابية أو التقليل من شأنها، مما يؤدي إلى زيادة الميزانية. تتمثل إحدى طرق التغلب على هذه المشكلة في الاستفادة من الحوسبة التطوعية لأنها توفر موارد حسابية موزعة بتكلفة نقدية مجانية. ومع ذلك، فإن سلوك الجهاز المتقلب يمثل مشكلة يجب معالجتها في توزيعات البيانات الضخمة. وبالتالي، يقترح هذا العمل نموذجًا لتوزيع البيانات يتكون من بيئات الحوسبة السحابية والحوسبة التطوعية بطريقة هجينة لتحليلات البيانات الضخمة. مساهمات هذا العمل هي: 1) التقييم المطلوب لتمكين النشر الفعال للبيانات الضخمة في البنى التحتية الهجينة ؛ 2) تطوير خوارزمية تخصيص الموارد البشرية لإنشاء موضع البيانات لتطبيقات البيانات الضخمة ؛ 3) نموذج لتخصيص الموارد في البنى التحتية الهجينة. تشير النتائج التي تم الحصول عليها إلى جدوى استخدام بنية تحتية هجينة مع ما يصل إلى 35 ٪ من الآلات غير المستقرة في أسوأ السيناريوهات، دون فقدان الأداء وتكلفة نقدية أقل من 20 ٪ مقارنة بالحوسبة السحابية الكلاسيكية. أيضًا، تنخفض تكاليف الاتصالات بنسبة تصل إلى 57.14 ٪ في أفضل سيناريو بسبب موازنة الحمل.Translated Description (French)
Les applications Big Data sont présentes dans de nombreux domaines tels que les marchés financiers, les moteurs de recherche, les services de flux, les soins de santé, les réseaux sociaux, etc. L'analyse des données apporte une valeur ajoutée aux informations pour les organisations. Le Cloud Computing classique représente une architecture robuste pour effectuer des calculs complexes et à grande échelle pour ces domaines. Les principaux défis sont l'ignorance de l'utilisateur sur l'infrastructure Cloud, la nécessité d'améliorer les performances et la gestion des ressources pour maintenir un traitement stable. Dans ces difficultés, une solution inadéquate peut conduire les utilisateurs à surestimer ou à sous-estimer le nombre de ressources informatiques, ce qui entraîne des augmentations de budget. Une façon de contourner ce problème est d'utiliser l'informatique volontaire, car elle fournit des ressources informatiques distribuées à un coût monétaire gratuit. Cependant, un comportement volatile de la machine est un problème à résoudre dans les distributions de données Big Data. Ainsi, ce travail propose un modèle de distribution de données composé d'environnements de Cloud Computing et de Volunteer Computing de manière hybride pour l'analyse de Big Data. Les contributions de ce travail sont : i) l'évaluation requise pour permettre un déploiement efficace du Big Data dans les infrastructures hybrides ; ii) le développement d'un algorithme HR_Alloc pour établir le placement des données dans les applications Big Data ; iii) un modèle d'allocation des ressources dans les infrastructures hybrides. Les résultats obtenus indiquent la faisabilité de l'utilisation d'une infrastructure hybride avec jusqu'à 35 % de machines instables dans le pire des cas, sans perte de performance et un coût monétaire inférieur à 20 % par rapport au Cloud Computing classique. En outre, les coûts de communication diminuent jusqu'à 57,14 % dans le meilleur des cas en raison de l'équilibrage de la charge.Translated Description (Spanish)
Las aplicaciones de Big Data están presentes en muchas áreas, como los mercados financieros, los motores de búsqueda, los servicios de transmisión, la atención médica, las redes sociales, etc. El análisis de datos proporciona valor a la información para las organizaciones. La computación en nube clásica representa una arquitectura robusta para realizar computación compleja y a gran escala para estas áreas. Los principales desafíos son el desconocimiento del usuario sobre la infraestructura de la nube, los requisitos necesarios para mejorar el rendimiento y la gestión de recursos para mantener un procesamiento estable. En estas dificultades, una solución inadecuada puede llevar a los usuarios a sobreestimar o subestimar el número de recursos computacionales, lo que impulsa el aumento del presupuesto. Una forma de solucionar este problema es hacer uso de Volunteer Computing, ya que proporciona recursos computacionales distribuidos a un costo monetario gratuito. Sin embargo, un comportamiento volátil de la máquina es un problema a abordar en las distribuciones de Big Data. Así, este trabajo propone un modelo de distribución de datos compuesto por entornos de Cloud Computing y Volunteer Computing de forma híbrida para el análisis de Big Data. Las contribuciones de este trabajo son: i) la evaluación requerida para permitir el despliegue eficiente de Big Data en infraestructuras híbridas; ii) el desarrollo de un Algoritmo HR_Alloc para establecer la colocación de datos en aplicaciones de Big Data; iii) un modelo para la asignación de recursos en infraestructuras híbridas. Los resultados obtenidos indican la viabilidad de utilizar una infraestructura híbrida con hasta un 35% de máquinas inestables en el peor de los casos, sin perder rendimiento y un coste monetario inferior al 20% en comparación con el Cloud Computing Clásico. Además, los costes de comunicación disminuyen hasta un 57,14% en el mejor de los casos debido al balanceo de carga.Files
      
        09193894.pdf.pdf
        
      
    
    
      
        Files
         (245 Bytes)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:081d7287c18a2f8bf76ebe2cf63cf486 | 245 Bytes | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- نموذج معالجة البيانات لإجراء تحليلات البيانات الضخمة في البنى التحتية الهجينة
- Translated title (French)
- Modèle de traitement des données pour effectuer l'analyse des mégadonnées dans les infrastructures hybrides
- Translated title (Spanish)
- Modelo de Procesamiento de Datos para Realizar Análisis de Big Data en Infraestructuras Híbridas
Identifiers
- Other
- https://openalex.org/W3086007304
- DOI
- 10.1109/access.2020.3023344
            
              References
            
          
        - https://openalex.org/W1818180064
- https://openalex.org/W1861377444
- https://openalex.org/W1963563622
- https://openalex.org/W2048310536
- https://openalex.org/W2070275167
- https://openalex.org/W2086392024
- https://openalex.org/W2103402787
- https://openalex.org/W2121810937
- https://openalex.org/W2126160525
- https://openalex.org/W2157355837
- https://openalex.org/W2159588611
- https://openalex.org/W2163291889
- https://openalex.org/W2167529040
- https://openalex.org/W2172730034
- https://openalex.org/W2192866163
- https://openalex.org/W2207563043
- https://openalex.org/W2239337023
- https://openalex.org/W2295302693
- https://openalex.org/W2346777848
- https://openalex.org/W2542459869
- https://openalex.org/W2568772110
- https://openalex.org/W2615083060
- https://openalex.org/W2618761632
- https://openalex.org/W2748404340
- https://openalex.org/W2791328896
- https://openalex.org/W2809684797
- https://openalex.org/W2889574297
- https://openalex.org/W2891800686
- https://openalex.org/W2898861004
- https://openalex.org/W2913854892
- https://openalex.org/W2954529315
- https://openalex.org/W2957039606
- https://openalex.org/W2964604098
- https://openalex.org/W2988168123
- https://openalex.org/W3006691480
- https://openalex.org/W3201414891
- https://openalex.org/W4245256586
- https://openalex.org/W4290982963