Published August 29, 2023 | Version v1
Publication Open

A New Multiple Imputation Approach Using Machine Learning to Enhance Climate Databases in Senegal

  • 1. Agence Nationale de l'Aviation Civile et de la Météorologie
  • 2. University of Ghana
  • 3. Université Gaston Berger
  • 4. Johannes Kepler University of Linz
  • 5. National Oceanic and Atmospheric Administration
  • 6. Cheikh Anta Diop University
  • 7. Centre de Suivi Ecologique

Description

Abstract This study aims at enhancing climate data in Senegal using information from the Global Surface Summary of the Day (GSOD). It uses data from 1991 to 2022 from major secondary synoptic stations in Senegal. These data are subject to missing values (data gaps). To address these gaps, multiple imputation was used based on three machine learning models: PMM (Predictive Mean Matching), RF (Random Forest), and NORM (Bayesian Linear Regression). The PMM model relies on averages of similar data, the RF model handles complex relationships between variables, even on an intra-seasonal scale, while the NORM model captures seasonal variations and extreme values. The results highlight the higher performance of the RF model in terms of accuracy and variance explanation compared to the others. The findings of this study open new avenues for informed decision-making in sectors such as agriculture and urban planning, where accurate climate data play a crucial role. However, while this study lays the groundwork for better utilization of climate data in Senegal, challenges persist, including the ongoing need to collect high-quality data and adapt models to data intricacies.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الملخص تهدف هذه الدراسة إلى تعزيز البيانات المناخية في السنغال باستخدام معلومات من الملخص السطحي العالمي لليوم (GSOD). ويستخدم بيانات من 1991 إلى 2022 من محطات سينوبتيك ثانوية رئيسية في السنغال. تخضع هذه البيانات لقيم مفقودة (فجوات البيانات). ولمعالجة هذه الثغرات، تم استخدام إسناد متعدد بناءً على ثلاثة نماذج للتعلم الآلي: PMM (المطابقة التنبؤية للمتوسط)، RF (الغابة العشوائية)، و NORM (الانحدار الخطي البايزي). يعتمد نموذج PMM على متوسطات البيانات المتشابهة، ويتعامل نموذج RF مع العلاقات المعقدة بين المتغيرات، حتى على نطاق موسمي، بينما يلتقط نموذج المعيار الاختلافات الموسمية والقيم المتطرفة. تسلط النتائج الضوء على الأداء العالي لنموذج الترددات اللاسلكية من حيث الدقة وتفسير التباين مقارنة بالآخرين. تفتح نتائج هذه الدراسة سبلًا جديدة لاتخاذ قرارات مستنيرة في قطاعات مثل الزراعة والتخطيط الحضري، حيث تلعب البيانات المناخية الدقيقة دورًا حاسمًا. ومع ذلك، في حين أن هذه الدراسة تضع الأساس لاستخدام أفضل للبيانات المناخية في السنغال، لا تزال التحديات قائمة، بما في ذلك الحاجة المستمرة لجمع بيانات عالية الجودة وتكييف النماذج مع تعقيدات البيانات.

Translated Description (French)

Résumé Cette étude vise à améliorer les données climatiques au Sénégal en utilisant les informations du Global Surface Summary of the Day (GSOD). Il utilise les données de 1991 à 2022 des principales stations synoptiques secondaires du Sénégal. Ces données sont sujettes à des valeurs manquantes (lacunes de données). Pour combler ces lacunes, une imputation multiple a été utilisée sur la base de trois modèles d'apprentissage automatique : PMM (Predictive Mean Matching), RF (Random Forest) et NORM (Bayesian Linear Regression). Le modèle PMM repose sur des moyennes de données similaires, le modèle RF gère des relations complexes entre les variables, même sur une échelle intra-saisonnière, tandis que le modèle NORM capture les variations saisonnières et les valeurs extrêmes. Les résultats mettent en évidence les performances plus élevées du modèle RF en termes de précision et d'explication de la variance par rapport aux autres. Les résultats de cette étude ouvrent de nouvelles voies pour une prise de décision éclairée dans des secteurs tels que l'agriculture et l'urbanisme, où des données climatiques précises jouent un rôle crucial. Cependant, bien que cette étude jette les bases d'une meilleure utilisation des données climatiques au Sénégal, des défis persistent, notamment la nécessité constante de collecter des données de haute qualité et d'adapter les modèles aux subtilités des données.

Translated Description (Spanish)

Resumen Este estudio tiene como objetivo mejorar los datos climáticos en Senegal utilizando información del Resumen del Día de la Superficie Global (GSOD). Utiliza datos de 1991 a 2022 de las principales estaciones sinópticas secundarias en Senegal. Estos datos están sujetos a valores faltantes (brechas de datos). Para abordar estas brechas, se utilizó la imputación múltiple basada en tres modelos de aprendizaje automático: PMM (Predictive Mean Matching), RF (Random Forest) y NORM (Bayesian Linear Regression). El modelo PMM se basa en promedios de datos similares, el modelo RF maneja relaciones complejas entre variables, incluso en una escala intraestacional, mientras que el modelo NORMALIZADO captura variaciones estacionales y valores extremos. Los resultados destacan el mayor rendimiento del modelo de RF en términos de precisión y explicación de la varianza en comparación con los demás. Los hallazgos de este estudio abren nuevas vías para la toma de decisiones informadas en sectores como la agricultura y la planificación urbana, donde los datos climáticos precisos desempeñan un papel crucial. Sin embargo, si bien este estudio sienta las bases para una mejor utilización de los datos climáticos en Senegal, persisten los desafíos, incluida la necesidad continua de recopilar datos de alta calidad y adaptar los modelos a las complejidades de los datos.

Files

latest.pdf.pdf

Files (1.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:310bc7e8163f869f54fd1f3471215382
1.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نهج جديد متعدد المحاكاة باستخدام التعلم الآلي لتعزيز قواعد البيانات المناخية في السنغال
Translated title (French)
Une nouvelle approche d'imputation multiple utilisant l'apprentissage automatique pour améliorer les bases de données climatiques au Sénégal
Translated title (Spanish)
Un nuevo enfoque de imputación múltiple que utiliza el aprendizaje automático para mejorar las bases de datos climáticas en Senegal

Identifiers

Other
https://openalex.org/W4386253445
DOI
10.21203/rs.3.rs-3287168/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Ghana

References

  • https://openalex.org/W1533634678
  • https://openalex.org/W1581663723
  • https://openalex.org/W1919216911
  • https://openalex.org/W1978161766
  • https://openalex.org/W1997894578
  • https://openalex.org/W2020469756
  • https://openalex.org/W2031668066
  • https://openalex.org/W2057119701
  • https://openalex.org/W2058854776
  • https://openalex.org/W2073064546
  • https://openalex.org/W2090688102
  • https://openalex.org/W2096391232
  • https://openalex.org/W2115098571
  • https://openalex.org/W2122945202
  • https://openalex.org/W2134843796
  • https://openalex.org/W2143779397
  • https://openalex.org/W2154074878
  • https://openalex.org/W2168862366
  • https://openalex.org/W2168985433
  • https://openalex.org/W2174160981
  • https://openalex.org/W2255147964
  • https://openalex.org/W2261059368
  • https://openalex.org/W2300843834
  • https://openalex.org/W2509876630
  • https://openalex.org/W2560727847
  • https://openalex.org/W2606442136
  • https://openalex.org/W2637477912
  • https://openalex.org/W2750735368
  • https://openalex.org/W2754317187
  • https://openalex.org/W2775701527
  • https://openalex.org/W2809317444
  • https://openalex.org/W2938205880
  • https://openalex.org/W2941816951
  • https://openalex.org/W2944755434
  • https://openalex.org/W2949495270
  • https://openalex.org/W2954168252
  • https://openalex.org/W2955443275
  • https://openalex.org/W2987028840
  • https://openalex.org/W3004750436
  • https://openalex.org/W3035289617
  • https://openalex.org/W3091610863
  • https://openalex.org/W3092375231
  • https://openalex.org/W3116512390
  • https://openalex.org/W3135094168
  • https://openalex.org/W3154863786
  • https://openalex.org/W3160154289
  • https://openalex.org/W3173271464
  • https://openalex.org/W3195694313
  • https://openalex.org/W3214476217
  • https://openalex.org/W3215437998
  • https://openalex.org/W4206604443
  • https://openalex.org/W4225774531
  • https://openalex.org/W4229442782
  • https://openalex.org/W4377565282
  • https://openalex.org/W4384408349
  • https://openalex.org/W4385555699
  • https://openalex.org/W78449534