Published July 10, 2024 | Version v1
Publication

Quantifying Predictive Uncertainty and Feature Selection in River Bed Load Estimation: A Multi-Model Machine Learning Approach with Particle Swarm Optimization

  • 1. Kyungpook National University
  • 2. Thuyloi University
  • 3. Ho Chi Minh City University of Technology
  • 4. Vietnam National University Ho Chi Minh City

Description

This study presents a comprehensive multi-model machine learning (ML) approach to predict river bed load, addressing the challenge of quantifying predictive uncertainty in fluvial geomorphology. Six ML models—random forest (RF), categorical boosting (CAT), extra tree regression (ETR), gradient boosting machine (GBM), Bayesian regression model (BRM), and K-nearest neighbors (KNNs)—were thoroughly evaluated across several performance metrics like root mean square error (RMSE), and correlation coefficient (R). To enhance model training and optimize performance, particle swarm optimization (PSO) was employed for hyperparameter tuning across all the models, leveraging its capability to efficiently explore complex hyperparameter spaces. Our findings indicated that RF, GBM, CAT, and ETR demonstrate superior predictive performance (R score > 0.936), benefiting significantly from PSO. In contrast, BRM displayed lower performance (0.838), indicating challenges with Bayesian approaches. The feature importance analysis, including permutation feature and SHAP values, highlighted the non-linear interdependencies between the variables, with river discharge (Q), bed slope (S), and flow width (W) being the most influential. This study also examined the specific impact of individual variables on model performance by adding and excluding individual variables, which is particularly meaningful when choosing input variables for the model, especially in limited data conditions. Uncertainty quantification through Monte Carlo simulations highlighted the enhanced predictability and reliability of models with larger datasets. The correlation between increased training data and improved model precision was evident in the consistent rise in mean R scores and reduction in standard deviations as the sample size increased. This research underscored the potential of advanced ensemble methods and PSO to mitigate the limitations of single-predictor models and exploit collective model strengths, thereby improving the reliability of predictions in river bed load estimation. The insights from this study provide a valuable framework for future research directions focused on optimizing ensemble configurations for hydro-dynamic modeling.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تقدم هذه الدراسة نهجًا شاملاً للتعلم الآلي متعدد النماذج (ML) للتنبؤ بحمل قاع النهر، ومعالجة التحدي المتمثل في قياس عدم اليقين التنبؤي في الجيومورفولوجيا النهرية. تم تقييم ستة نماذج ML - الغابة العشوائية (RF)، التعزيز الفئوي (CAT)، الانحدار الإضافي للأشجار (ETR)، آلة تعزيز التدرج (GBM)، نموذج الانحدار البايزي (BRM)، وأقرب الجيران (KNNs)- بدقة عبر العديد من مقاييس الأداء مثل خطأ متوسط الجذر التربيعي (RMSE)، ومعامل الارتباط (R). لتعزيز تدريب النموذج وتحسين الأداء، تم استخدام تحسين سرب الجسيمات (PSO) لضبط المعلمة الفائقة عبر جميع النماذج، والاستفادة من قدرتها على استكشاف مساحات المعلمة الفائقة المعقدة بكفاءة. أشارت النتائج التي توصلنا إليها إلى أن RF و GBM و CAT و ETR تظهر أداءً تنبؤيًا متفوقًا (درجة R > 0.936)، وتستفيد بشكل كبير من PSO. في المقابل، أظهرت BRM أداءً أقل (0.838)، مما يشير إلى التحديات مع النهج البايزية. أبرز تحليل أهمية الميزة، بما في ذلك ميزة التبديل وقيم SHAP، الترابطات غير الخطية بين المتغيرات، مع كون تصريف النهر (Q) ومنحدر السرير (S) وعرض التدفق (W) هي الأكثر تأثيرًا. درست هذه الدراسة أيضًا التأثير المحدد للمتغيرات الفردية على أداء النموذج من خلال إضافة واستبعاد المتغيرات الفردية، وهو أمر مفيد بشكل خاص عند اختيار متغيرات المدخلات للنموذج، خاصة في ظروف البيانات المحدودة. سلط القياس الكمي غير المؤكد من خلال محاكاة مونت كارلو الضوء على تعزيز القدرة على التنبؤ والموثوقية للنماذج ذات مجموعات البيانات الأكبر. كان الارتباط بين زيادة بيانات التدريب وتحسين دقة النموذج واضحًا في الارتفاع المستمر في متوسط درجات R وانخفاض الانحرافات المعيارية مع زيادة حجم العينة. أكد هذا البحث على إمكانات أساليب التجميع المتقدمة و PSO للتخفيف من قيود نماذج التنبؤ الفردي واستغلال نقاط قوة النموذج الجماعي، وبالتالي تحسين موثوقية التنبؤات في تقدير حمل قاع النهر. توفر الرؤى من هذه الدراسة إطارًا قيمًا لاتجاهات البحث المستقبلية التي تركز على تحسين تكوينات المجموعة للنمذجة الهيدروديناميكية.

Translated Description (French)

Cette étude présente une approche complète d'apprentissage automatique (ML) multimodèle pour prédire la charge du lit de la rivière, en relevant le défi de quantifier l'incertitude prédictive en géomorphologie fluviale. Six modèles ML - forêt aléatoire (RF), amplification catégorique (CAT), régression arborescente supplémentaire (ETR), machine d'amplification de gradient (GBM), modèle de régression bayésienne (BRM) et voisins les plus proches (KNN)- ont été soigneusement évalués à travers plusieurs mesures de performance telles que l'erreur quadratique moyenne (RMSE) et le coefficient de corrélation (R). Pour améliorer la formation aux modèles et optimiser les performances, l'optimisation des essaims de particules (PSO) a été utilisée pour le réglage des hyperparamètres dans tous les modèles, tirant parti de sa capacité à explorer efficacement les espaces hyperparamétriques complexes. Nos résultats ont indiqué que les RF, GBM, CAT et ETR démontrent une performance prédictive supérieure (score R > 0,936), bénéficiant de manière significative de PSO. En revanche, le BRM a affiché des performances plus faibles (0,838), ce qui indique des difficultés avec les approches bayésiennes. L'analyse de l'importance des caractéristiques, y compris la caractéristique de permutation et les valeurs SHAP, a mis en évidence les interdépendances non linéaires entre les variables, le débit de la rivière (Q), la pente du lit (S) et la largeur du débit (W) étant les plus influents. Cette étude a également examiné l'impact spécifique des variables individuelles sur la performance du modèle en ajoutant et en excluant des variables individuelles, ce qui est particulièrement significatif lors du choix des variables d'entrée pour le modèle, en particulier dans des conditions de données limitées. La quantification de l'incertitude par des simulations de Monte Carlo a mis en évidence la prévisibilité et la fiabilité accrues des modèles avec des ensembles de données plus importants. La corrélation entre l'augmentation des données d'entraînement et l'amélioration de la précision du modèle était évidente dans l'augmentation constante des scores R moyens et la réduction des écarts types à mesure que la taille de l'échantillon augmentait. Cette recherche a souligné le potentiel des méthodes d'ensemble avancées et des OSP pour atténuer les limites des modèles à prédicteur unique et exploiter les forces collectives des modèles, améliorant ainsi la fiabilité des prédictions dans l'estimation de la charge du lit des rivières. Les enseignements de cette étude fournissent un cadre précieux pour les futures orientations de recherche axées sur l'optimisation des configurations d'ensembles pour la modélisation hydrodynamique.

Translated Description (Spanish)

Este estudio presenta un enfoque integral de aprendizaje automático (ML) multimodal para predecir la carga del lecho del río, abordando el desafío de cuantificar la incertidumbre predictiva en la geomorfología fluvial. Se evaluaron a fondo seis modelos de ML: bosque aleatorio (RF), refuerzo categórico (CAT), regresión de árbol adicional (ETR), máquina de refuerzo de gradiente (GBM), modelo de regresión bayesiana (BRM) y vecinos K-más cercanos (KNN), a través de varias métricas de rendimiento como el error cuadrático medio (RMSE) y el coeficiente de correlación (R). Para mejorar el entrenamiento del modelo y optimizar el rendimiento, se empleó la optimización de enjambre de partículas (PSO) para el ajuste de hiperparámetros en todos los modelos, aprovechando su capacidad para explorar de manera eficiente espacios de hiperparámetros complejos. Nuestros hallazgos indicaron que RF, GBM, CAT y ETR demuestran un rendimiento predictivo superior (puntuación R > 0,936), beneficiándose significativamente de PSO. Por el contrario, BRM mostró un rendimiento más bajo (0.838), lo que indica desafíos con los enfoques bayesianos. El análisis de importancia de la característica, incluida la característica de permutación y los valores de SHAP, destacó las interdependencias no lineales entre las variables, siendo la descarga del río (Q), la pendiente del lecho (S) y el ancho del flujo (W) los más influyentes. Este estudio también examinó el impacto específico de las variables individuales en el rendimiento del modelo al agregar y excluir variables individuales, lo cual es particularmente significativo al elegir variables de entrada para el modelo, especialmente en condiciones de datos limitados. La cuantificación de la incertidumbre a través de simulaciones de Monte Carlo destacó la mayor predictibilidad y confiabilidad de los modelos con conjuntos de datos más grandes. La correlación entre el aumento de los datos de entrenamiento y la mejora de la precisión del modelo fue evidente en el aumento constante de las puntuaciones R medias y la reducción de las desviaciones estándar a medida que aumentaba el tamaño de la muestra. Esta investigación subrayó el potencial de los métodos avanzados de conjunto y la OSP para mitigar las limitaciones de los modelos de un solo predictor y explotar las fortalezas de los modelos colectivos, mejorando así la confiabilidad de las predicciones en la estimación de la carga del lecho del río. Los conocimientos de este estudio proporcionan un marco valioso para futuras direcciones de investigación centradas en la optimización de las configuraciones de conjuntos para el modelado hidrodinámico.

Additional details

Additional titles

Translated title (Arabic)
قياس عدم اليقين التنبؤي واختيار الميزات في تقدير حمل قاع النهر: نهج التعلم الآلي متعدد النماذج مع تحسين سرب الجسيمات
Translated title (French)
Quantifier l'incertitude prédictive et la sélection des caractéristiques dans l'estimation de la charge du lit de la rivière : une approche d'apprentissage automatique multimodèle avec optimisation de l'essaim de particules
Translated title (Spanish)
Cuantificación de la incertidumbre predictiva y selección de características en la estimación de la carga del lecho fluvial: un enfoque de aprendizaje automático multimodelo con optimización de enjambre de partículas

Identifiers

Other
https://openalex.org/W4400494102
DOI
10.3390/w16141945

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1488843270
  • https://openalex.org/W1547417719
  • https://openalex.org/W1678356000
  • https://openalex.org/W1968432213
  • https://openalex.org/W1970393785
  • https://openalex.org/W1981457167
  • https://openalex.org/W2017015603
  • https://openalex.org/W2025966001
  • https://openalex.org/W2056132907
  • https://openalex.org/W2061491824
  • https://openalex.org/W2082156006
  • https://openalex.org/W2102636708
  • https://openalex.org/W2122111042
  • https://openalex.org/W2133897194
  • https://openalex.org/W2135113252
  • https://openalex.org/W2144728623
  • https://openalex.org/W2318814200
  • https://openalex.org/W2497876429
  • https://openalex.org/W2911964244
  • https://openalex.org/W2918687283
  • https://openalex.org/W2942440036
  • https://openalex.org/W3007372356
  • https://openalex.org/W3011715120
  • https://openalex.org/W3040549837
  • https://openalex.org/W3049450427
  • https://openalex.org/W3094369477
  • https://openalex.org/W3211526028
  • https://openalex.org/W4212792548
  • https://openalex.org/W4281249800
  • https://openalex.org/W4282982228
  • https://openalex.org/W4309589092
  • https://openalex.org/W4315588586
  • https://openalex.org/W4318978970
  • https://openalex.org/W4360620247
  • https://openalex.org/W4375851477
  • https://openalex.org/W4385324819
  • https://openalex.org/W4385367785
  • https://openalex.org/W4386250919
  • https://openalex.org/W4386934517
  • https://openalex.org/W4391188559
  • https://openalex.org/W4391211467
  • https://openalex.org/W595358173