Conditional probability table limit-based quantization for Bayesian networks: model quality, data fidelity and structure score
- 1. Universidade de São Paulo
- 2. Eindhoven University of Technology
Description
Abstract Bayesian Networks (BN) are robust probabilistic graphical models mainly used with discrete random variables requiring discretization and quantization of continuous data. Quantization is known to affect model accuracy, speed and interpretability, and there are various quantization methods and performance comparisons proposed in literature. Therefore, this paper introduces a novel approach called CPT limit-based quantization (CLBQ) aimed to address the trade-off among model quality, data fidelity and structure score. CLBQ sets CPT size limitation based on how large the dataset is so as to optimize the balance between the structure score of BNs and mean squared error. For such a purpose, a range of quantization values for each variable was evaluated and a Pareto set was designed considering structure score and mean squared error (MSE). A quantization value was selected from the Pareto set in order to balance MSE and structure score, and the method's effectiveness was tested using different datasets, such as discrete variables with added noise, continuous variables and real continuous data. In all tests, CLBQ was compared to another quantization method known as Dynamic Discretization. Moreover, this study assesses the suitability of CLBQ for the search and score of BN structure learning, in addition to examining the landscape of BN structures while varying dataset sizes and confirming its consistency. It was sought to find the expected structure location through a landscape analysis and optimal BNs on it so as to confirm whether the expected results were actually achieved in the search and score of BN structure learning. Results demonstrate that CLBQ is quite capable of striking a balance between model quality, data fidelity and structure score, in addition to evidencing its potential application in the search and score of BN structure learning, thus further research should explore different structure scores and quantization methods through CLBQ. Furthermore, its code and used datasets have all been made available.
Translated Descriptions
Translated Description (Arabic)
الشبكات البايزية المجردة (BN) هي نماذج رسومية احتمالية قوية تستخدم بشكل رئيسي مع متغيرات عشوائية منفصلة تتطلب تقطيع البيانات المستمرة وكميتها. من المعروف أن القياس الكمي يؤثر على دقة النموذج وسرعته وقابليته للتفسير، وهناك العديد من طرق القياس الكمي ومقارنات الأداء المقترحة في الأدبيات. لذلك، تقدم هذه الورقة نهجًا جديدًا يسمى التكميم القائم على الحد CPT (CLBQ) يهدف إلى معالجة المفاضلة بين جودة النموذج ودقة البيانات ودرجة الهيكل. يحدد CLBQ قيود حجم CPT بناءً على حجم مجموعة البيانات وذلك لتحسين التوازن بين درجة بنية BNs ومتوسط الخطأ التربيعي. لهذا الغرض، تم تقييم مجموعة من قيم التكميم لكل متغير وتم تصميم مجموعة باريتو مع الأخذ في الاعتبار درجة الهيكل ومتوسط الخطأ التربيعي (MSE). تم اختيار قيمة التكميم من مجموعة باريتو من أجل تحقيق التوازن بين درجة MSE والهيكل، وتم اختبار فعالية الطريقة باستخدام مجموعات بيانات مختلفة، مثل المتغيرات المنفصلة ذات الضوضاء المضافة والمتغيرات المستمرة والبيانات المستمرة الحقيقية. في جميع الاختبارات، تمت مقارنة CLBQ بطريقة تكميم أخرى تعرف باسم التقسيم الديناميكي. علاوة على ذلك، تقيّم هذه الدراسة مدى ملاءمة CLBQ للبحث ودرجة تعلم بنية BN، بالإضافة إلى فحص مشهد هياكل BN مع اختلاف أحجام مجموعات البيانات وتأكيد اتساقها. تم السعي للعثور على موقع الهيكل المتوقع من خلال تحليل المناظر الطبيعية و BNs المثلى عليه وذلك لتأكيد ما إذا كانت النتائج المتوقعة قد تحققت بالفعل في البحث والنتيجة لتعلم هيكل BN. تُظهر النتائج أن CLBQ قادرة تمامًا على تحقيق التوازن بين جودة النموذج ودقة البيانات ودرجة البنية، بالإضافة إلى إثبات تطبيقها المحتمل في البحث ودرجة تعلم بنية BN، وبالتالي يجب أن تستكشف المزيد من الأبحاث درجات البنية المختلفة وطرق القياس من خلال CLBQ. علاوة على ذلك، تم توفير جميع التعليمات البرمجية ومجموعات البيانات المستخدمة.Translated Description (French)
Les réseaux bayésiens abstraits (BN) sont des modèles graphiques probabilistes robustes principalement utilisés avec des variables aléatoires discrètes nécessitant une discrétisation et une quantification des données continues. La quantification est connue pour affecter la précision, la vitesse et l'interprétabilité du modèle, et il existe diverses méthodes de quantification et comparaisons de performances proposées dans la littérature. Par conséquent, cet article présente une nouvelle approche appelée quantification basée sur la limite CPT (CLBQ) visant à aborder le compromis entre la qualité du modèle, la fidélité des données et le score de structure. Le CLBQ définit la limite de taille du CPT en fonction de la taille de l'ensemble de données afin d'optimiser l'équilibre entre le score de structure des NE et l'erreur quadratique moyenne. À cette fin, une plage de valeurs de quantification pour chaque variable a été évaluée et un ensemble de Pareto a été conçu en tenant compte du score de structure et de l'erreur quadratique moyenne (MSE). Une valeur de quantification a été sélectionnée à partir de l'ensemble de Pareto afin d'équilibrer le MSE et le score de structure, et l'efficacité de la méthode a été testée à l'aide de différents ensembles de données, tels que des variables discrètes avec bruit ajouté, des variables continues et des données continues réelles. Dans tous les tests, le CLBQ a été comparé à une autre méthode de quantification connue sous le nom de Discrétisation Dynamique. De plus, cette étude évalue la pertinence du CLBQ pour la recherche et le score de l'apprentissage de la structure BN, en plus d'examiner le paysage des structures BN tout en faisant varier la taille des ensembles de données et en confirmant sa cohérence. On a cherché à trouver l'emplacement attendu de la structure à travers une analyse du paysage et des BN optimaux afin de confirmer si les résultats attendus ont été effectivement atteints dans la recherche et le score de l'apprentissage de la structure BN. Les résultats démontrent que le CLBQ est tout à fait capable de trouver un équilibre entre la qualité du modèle, la fidélité des données et le score de structure, en plus de mettre en évidence son application potentielle dans la recherche et le score de l'apprentissage de la structure du NE. Par conséquent, d'autres recherches devraient explorer différents scores de structure et méthodes de quantification par le biais du CLBQ. En outre, son code et les ensembles de données utilisés ont tous été mis à disposition.Translated Description (Spanish)
Las redes bayesianas abstractas (BN) son modelos gráficos probabilísticos robustos que se utilizan principalmente con variables aleatorias discretas que requieren discretización y cuantificación de datos continuos. Se sabe que la cuantificación afecta la precisión, velocidad e interpretabilidad del modelo, y hay varios métodos de cuantificación y comparaciones de rendimiento propuestos en la literatura. Por lo tanto, este documento presenta un enfoque novedoso llamado cuantificación basada en límites de CPT (CLBQ) destinado a abordar la compensación entre la calidad del modelo, la fidelidad de los datos y la puntuación de la estructura. CLBQ establece la limitación del tamaño de CPT en función del tamaño del conjunto de datos para optimizar el equilibrio entre la puntuación de la estructura de los BN y el error cuadrático medio. Para tal fin, se evaluó un rango de valores de cuantificación para cada variable y se diseñó un conjunto de Pareto considerando la puntuación de la estructura y el error cuadrático medio (MSE). Se seleccionó un valor de cuantificación del conjunto de Pareto para equilibrar el MSE y la puntuación de la estructura, y se probó la efectividad del método utilizando diferentes conjuntos de datos, como variables discretas con ruido añadido, variables continuas y datos continuos reales. En todas las pruebas, CLBQ se comparó con otro método de cuantificación conocido como Discretización Dinámica. Además, este estudio evalúa la idoneidad de CLBQ para la búsqueda y la puntuación del aprendizaje de la estructura de BN, además de examinar el panorama de las estructuras de BN mientras se varían los tamaños de los conjuntos de datos y se confirma su consistencia. Se buscó encontrar la ubicación esperada de la estructura a través de un análisis del paisaje y los BN óptimos para confirmar si los resultados esperados se lograron realmente en la búsqueda y la puntuación del aprendizaje de la estructura de BN. Los resultados demuestran que CLBQ es bastante capaz de lograr un equilibrio entre la calidad del modelo, la fidelidad de los datos y la puntuación de la estructura, además de evidenciar su posible aplicación en la búsqueda y puntuación del aprendizaje de la estructura de BN, por lo que las investigaciones adicionales deben explorar diferentes puntuaciones de la estructura y métodos de cuantificación a través de CLBQ. Además, su código y los conjuntos de datos utilizados se han puesto a disposición.Files
s10489-023-05153-8.pdf.pdf
Files
(1.7 MB)
Name | Size | Download all |
---|---|---|
md5:1db54234030576b38cb2d7b9640def4d
|
1.7 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- القياس الكمي لجدول الاحتمالات المشروط القائم على الحد للشبكات البايزية: جودة النموذج ودقة البيانات ودرجة الهيكل
- Translated title (French)
- Quantification basée sur les limites de la table de probabilité conditionnelle pour les réseaux bayésiens : qualité du modèle, fidélité des données et score de structure
- Translated title (Spanish)
- Cuantificación basada en límites de la tabla de probabilidad condicional para redes bayesianas: calidad del modelo, fidelidad de los datos y puntuación de la estructura
Identifiers
- Other
- https://openalex.org/W4393854723
- DOI
- 10.1007/s10489-023-05153-8
References
- https://openalex.org/W1524326598
- https://openalex.org/W1968565040
- https://openalex.org/W2019854259
- https://openalex.org/W2278224395
- https://openalex.org/W2290777368
- https://openalex.org/W2478884216
- https://openalex.org/W2549473102
- https://openalex.org/W2781518033
- https://openalex.org/W2794650578
- https://openalex.org/W2883939481
- https://openalex.org/W2888705210
- https://openalex.org/W2964209429
- https://openalex.org/W2974856897
- https://openalex.org/W2991211569
- https://openalex.org/W3045764542
- https://openalex.org/W3152978515
- https://openalex.org/W4282924406
- https://openalex.org/W4283156943
- https://openalex.org/W4291033595
- https://openalex.org/W4300082144
- https://openalex.org/W4311419992
- https://openalex.org/W4312204072
- https://openalex.org/W4312267373
- https://openalex.org/W4313729819
- https://openalex.org/W4316127741
- https://openalex.org/W4318055095
- https://openalex.org/W4318191636