Published October 18, 2023 | Version v1
Publication Open

Geographically distributed data management to support large-scale data analysis

  • 1. Damietta University
  • 2. Phenikaa University
  • 3. Phenikaa (Vietnam)
  • 4. Shenzhen University
  • 5. Shenzhen Research Institute of Big Data

Description

Nowadays, several companies prefer storing their data on multiple data centers with replication for many reasons. The data that spans various data centers ensures the fastest possible response time for customers and workforces who are geographically separated. It also provides protecting the information from the loss in case a single data center experiences a disaster. However, the amount of data is increasing at a rapid pace, which leads to challenges in storage, analysis, and various processing tasks. In this paper, we propose and design a geographically distributed data management framework to manage the massive data stored and distributed among geo-distributed data centers. The goal of the proposed framework is to enable efficient use of the distributed data blocks for various data analysis tasks. The architecture of the proposed framework is composed of a grid of geo-distributed data centers connected to a data controller (DCtrl). The DCtrl is responsible for organizing and managing the block replicas across the geo-distributed data centers. We use the BDMS system as the installed system on the distributed data centers. BDMS stores the big data file as a set of random sample data blocks, each being a random sample of the whole data file. Then, DCtrl distributes these data blocks into multiple data centers with replication. In analyzing a big data file distributed based on the proposed framework, we randomly select a sample of data blocks replicated from other data centers on any data center. We use simulation results to demonstrate the performance of the proposed framework in big data analysis across geo-distributed data centers.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في الوقت الحاضر، تفضل العديد من الشركات تخزين بياناتها على مراكز بيانات متعددة مع النسخ المتماثل لأسباب عديدة. تضمن البيانات التي تمتد عبر مراكز البيانات المختلفة أسرع وقت استجابة ممكن للعملاء والقوى العاملة المنفصلة جغرافيًا. كما يوفر حماية المعلومات من الضياع في حالة تعرض مركز بيانات واحد لكارثة. ومع ذلك، فإن كمية البيانات تتزايد بوتيرة سريعة، مما يؤدي إلى تحديات في التخزين والتحليل ومهام المعالجة المختلفة. في هذه الورقة، نقترح ونصمم إطارًا لإدارة البيانات الموزعة جغرافيًا لإدارة البيانات الضخمة المخزنة والموزعة بين مراكز البيانات الموزعة جغرافيًا. الهدف من الإطار المقترح هو تمكين الاستخدام الفعال لكتل البيانات الموزعة لمختلف مهام تحليل البيانات. تتكون بنية الإطار المقترح من شبكة من مراكز البيانات الموزعة جغرافيًا والمتصلة بوحدة تحكم البيانات (DCtrl). يكون DCtrl مسؤولاً عن تنظيم وإدارة النسخ المتماثلة للكتلة عبر مراكز البيانات الموزعة جغرافيًا. نستخدم نظام BDMS كنظام مثبت على مراكز البيانات الموزعة. يخزن BDMS ملف البيانات الضخمة كمجموعة من كتل بيانات العينة العشوائية، كل منها عينة عشوائية من ملف البيانات بأكمله. بعد ذلك، يوزع DCtrl كتل البيانات هذه في مراكز بيانات متعددة مع النسخ المتماثل. عند تحليل ملف بيانات كبير موزع بناءً على الإطار المقترح، نختار عشوائيًا عينة من كتل البيانات المنسوخة من مراكز البيانات الأخرى على أي مركز بيانات. نستخدم نتائج المحاكاة لإثبات أداء الإطار المقترح في تحليل البيانات الضخمة عبر مراكز البيانات الموزعة جغرافيًا.

Translated Description (French)

De nos jours, plusieurs entreprises préfèrent stocker leurs données sur plusieurs centres de données avec réplication pour de nombreuses raisons. Les données qui couvrent divers centres de données garantissent le temps de réponse le plus rapide possible pour les clients et les effectifs qui sont géographiquement séparés. Il fournit également une protection des informations contre la perte en cas de sinistre d'un seul centre de données. Cependant, la quantité de données augmente rapidement, ce qui entraîne des défis en matière de stockage, d'analyse et de diverses tâches de traitement. Dans cet article, nous proposons et concevons un cadre de gestion des données géographiquement réparties pour gérer les données massives stockées et réparties entre les centres de données géo-distribués. L'objectif du cadre proposé est de permettre une utilisation efficace des blocs de données distribués pour diverses tâches d'analyse de données. L'architecture du cadre proposé est composée d'une grille de centres de données géo-distribués connectés à un contrôleur de données (DCtrl). Le DCtrl est responsable de l'organisation et de la gestion des réplicas de blocs dans les centres de données géo-distribués. Nous utilisons le système BDMS comme système installé sur les centres de données distribués. BDMS stocke le fichier de données volumineuses sous la forme d'un ensemble de blocs de données d'échantillons aléatoires, chacun étant un échantillon aléatoire de l'ensemble du fichier de données. Ensuite, DCtrl distribue ces blocs de données dans plusieurs centres de données avec réplication. Lors de l'analyse d'un fichier Big Data distribué sur la base du cadre proposé, nous sélectionnons au hasard un échantillon de blocs de données répliqués à partir d'autres centres de données sur n'importe quel centre de données. Nous utilisons les résultats de simulation pour démontrer la performance du cadre proposé dans l'analyse des mégadonnées dans les centres de données géodistribués.

Translated Description (Spanish)

Hoy en día, varias empresas prefieren almacenar sus datos en múltiples centros de datos con replicación por muchas razones. Los datos que abarcan varios centros de datos garantizan el tiempo de respuesta más rápido posible para los clientes y las fuerzas de trabajo que están separados geográficamente. También protege la información de la pérdida en caso de que un solo centro de datos experimente un desastre. Sin embargo, la cantidad de datos está aumentando a un ritmo rápido, lo que conlleva desafíos en el almacenamiento, el análisis y diversas tareas de procesamiento. En este documento, proponemos y diseñamos un marco de gestión de datos distribuidos geográficamente para gestionar los datos masivos almacenados y distribuidos entre los centros de datos distribuidos geográficamente. El objetivo del marco propuesto es permitir el uso eficiente de los bloques de datos distribuidos para diversas tareas de análisis de datos. La arquitectura del marco propuesto se compone de una cuadrícula de centros de datos geo-distribuidos conectados a un controlador de datos (DCtrl). El DCtrl es responsable de organizar y administrar las réplicas de bloques en los centros de datos distribuidos geográficamente. Utilizamos el sistema BDMS como sistema instalado en los centros de datos distribuidos. BDMS almacena el archivo de big data como un conjunto de bloques de datos de muestra aleatorios, cada uno de los cuales es una muestra aleatoria de todo el archivo de datos. Luego, DCtrl distribuye estos bloques de datos en múltiples centros de datos con replicación. Al analizar un archivo de big data distribuido en función del marco propuesto, seleccionamos aleatoriamente una muestra de bloques de datos replicados de otros centros de datos en cualquier centro de datos. Utilizamos los resultados de la simulación para demostrar el rendimiento del marco propuesto en el análisis de big data en centros de datos distribuidos geográficamente.

Files

s41598-023-44789-x.pdf.pdf

Files (1.7 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:8293163d340e71e50c88196c8cdac462
1.7 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
إدارة البيانات الموزعة جغرافيًا لدعم تحليل البيانات على نطاق واسع
Translated title (French)
Gestion des données réparties géographiquement pour soutenir l'analyse des données à grande échelle
Translated title (Spanish)
Gestión de datos distribuidos geográficamente para respaldar el análisis de datos a gran escala

Identifiers

Other
https://openalex.org/W4387764728
DOI
10.1038/s41598-023-44789-x

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1514085392
  • https://openalex.org/W1581690648
  • https://openalex.org/W1598149183
  • https://openalex.org/W1965706740
  • https://openalex.org/W1986299532
  • https://openalex.org/W1986728284
  • https://openalex.org/W2041717067
  • https://openalex.org/W2048666037
  • https://openalex.org/W2081930221
  • https://openalex.org/W2091915308
  • https://openalex.org/W2113029033
  • https://openalex.org/W2119565742
  • https://openalex.org/W2119738171
  • https://openalex.org/W2146402254
  • https://openalex.org/W2155855591
  • https://openalex.org/W2165093166
  • https://openalex.org/W2313563299
  • https://openalex.org/W2346777848
  • https://openalex.org/W2542459869
  • https://openalex.org/W2582083445
  • https://openalex.org/W2584781819
  • https://openalex.org/W2724540280
  • https://openalex.org/W2769557912
  • https://openalex.org/W2803637429
  • https://openalex.org/W2808726866
  • https://openalex.org/W2900113940
  • https://openalex.org/W2907960312
  • https://openalex.org/W2918390491
  • https://openalex.org/W2942587158
  • https://openalex.org/W2974650973
  • https://openalex.org/W3000407226
  • https://openalex.org/W3013477116
  • https://openalex.org/W3018761215
  • https://openalex.org/W3023284667
  • https://openalex.org/W3090702692
  • https://openalex.org/W3106036258
  • https://openalex.org/W3140212559
  • https://openalex.org/W4249823756