Published December 14, 2023 | Version v1
Publication Open

Development of Risk Prediction Models for Severe Periodontitis in a Thai Population: Statistical and Machine Learning Approaches

  • 1. Mahidol University
  • 2. Ramathibodi Hospital
  • 3. Chulalongkorn University
  • 4. Queen's University Belfast
  • 5. Hunter Medical Research Institute

Description

Severe periodontitis affects 26% of Thai adults and 11.2% of adults globally and is characterized by the loss of alveolar bone height. Full-mouth examination by periodontal probing is the gold standard for diagnosis but is time- and resource-intensive. A screening model to identify those at high risk of severe periodontitis would offer a targeted approach and aid in reducing the workload for dentists. While statistical modelling by a logistic regression is commonly applied, optimal performance depends on feature selections and engineering. Machine learning has been recently gaining favor given its potential discriminatory power and ability to deal with multiway interactions without the requirements of linear assumptions.We aim to compare the performance of screening models developed using statistical and machine learning approaches for the risk prediction of severe periodontitis.This study used data from the prospective Electricity Generating Authority of Thailand cohort. Dental examinations were performed for the 2008 and 2013 surveys. Oral examinations (ie, number of teeth and oral hygiene index and plaque scores), periodontal pocket depth, and gingival recession were performed by dentists. The outcome of interest was severe periodontitis diagnosed by the Centre for Disease Control-American Academy of Periodontology, defined as 2 or more interproximal sites with a clinical attachment level ≥6 mm (on different teeth) and 1 or more interproximal sites with a periodontal pocket depth ≥5 mm. Risk prediction models were developed using mixed-effects logistic regression (MELR), recurrent neural network, mixed-effects support vector machine, and mixed-effects decision tree models. A total of 21 features were considered as predictive features, including 4 demographic characteristics, 2 physical examinations, 4 underlying diseases, 1 medication, 2 risk behaviors, 2 oral features, and 6 laboratory features.A total of 3883 observations from 2086 participants were split into development (n=3112, 80.1%) and validation (n=771, 19.9%) sets with prevalences of periodontitis of 34.4% (n=1070) and 34.1% (n=263), respectively. The final MELR model contained 6 features (gender, education, smoking, diabetes mellitus, number of teeth, and plaque score) with an area under the curve (AUC) of 0.983 (95% CI 0.977-0.989) and positive likelihood ratio (LR+) of 11.9 (95% CI 8.8-16.3). Machine learning yielded lower performance than the MELR model, with AUC (95% CI) and LR+ (95% CI) values of 0.712 (0.669-0.754) and 2.1 (1.8-2.6), respectively, for the recurrent neural network model; 0.698 (0.681-0.734) and 2.1 (1.7-2.6), respectively, for the mixed-effects support vector machine model; and 0.662 (0.621-0.702) and 2.4 (1.9-3.0), respectively, for the mixed-effects decision tree model.The MELR model might be more useful than machine learning for large-scale screening to identify those at high risk of severe periodontitis for periodontal evaluation. External validation using data from other centers is required to evaluate the generalizability of the model.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يؤثر التهاب اللثة الحاد على 26 ٪ من البالغين التايلانديين و 11.2 ٪ من البالغين على مستوى العالم ويتميز بفقدان ارتفاع العظام السنخية. فحص الفم الكامل عن طريق فحص اللثة هو المعيار الذهبي للتشخيص ولكنه يتطلب وقتًا وموارد مكثفة. سيوفر نموذج الفحص لتحديد الأشخاص المعرضين لخطر كبير للإصابة بالتهاب اللثة الحاد نهجًا مستهدفًا ويساعد في تقليل عبء العمل على أطباء الأسنان. في حين يتم تطبيق النمذجة الإحصائية من خلال الانحدار اللوجستي بشكل شائع، فإن الأداء الأمثل يعتمد على اختيارات الميزات والهندسة. اكتسب التعلم الآلي مؤخرًا تأييدًا نظرًا لقوته التمييزية المحتملة وقدرته على التعامل مع التفاعلات متعددة الاتجاهات دون متطلبات الافتراضات الخطية. نهدف إلى مقارنة أداء نماذج الفحص التي تم تطويرها باستخدام مناهج التعلم الإحصائي والآلي للتنبؤ بمخاطر التهاب اللثة الحاد. استخدمت هذه الدراسة بيانات من مجموعة هيئة توليد الكهرباء المحتملة في تايلاند. تم إجراء فحوصات الأسنان لاستطلاعات عامي 2008 و 2013. تم إجراء فحوصات الفم (أي عدد الأسنان ومؤشر نظافة الفم ودرجات البلاك)، وعمق جيب اللثة، وانحسار اللثة من قبل أطباء الأسنان. كانت نتيجة الاهتمام هي التهاب اللثة الحاد الذي تم تشخيصه من قبل مركز السيطرة على الأمراض - الأكاديمية الأمريكية لأمراض اللثة، والذي تم تعريفه على أنه موقعان أو أكثر من المواقع المتقاربة مع مستوى ارتباط سريري أكبر من أو يساوي6 مم (على أسنان مختلفة) وموقع واحد أو أكثر من المواقع المتقاربة مع عمق جيب اللثة أكبر من أو يساوي5 مم. تم تطوير نماذج التنبؤ بالمخاطر باستخدام الانحدار اللوجستي ذو التأثيرات المختلطة (MELR)، والشبكة العصبية المتكررة، وآلة ناقلات الدعم ذات التأثيرات المختلطة، ونماذج شجرة القرار ذات التأثيرات المختلطة. تم اعتبار ما مجموعه 21 سمة كسمات تنبؤية، بما في ذلك 4 خصائص ديموغرافية، وفحصان بدنيان، و 4 أمراض كامنة، ودواء واحد، وسلوكان خطران، وميزتان عن طريق الفم، و 6 سمات مختبرية. تم تقسيم ما مجموعه 3883 ملاحظة من 2086 مشاركًا إلى مجموعات تطوير (n=3112، 80.1 ٪) والتحقق من الصحة (n=771، 19.9 ٪) مع انتشار التهاب اللثة بنسبة 34.4 ٪ (n=1070) و 34.1 ٪ (n=263)، على التوالي. احتوى نموذج MELR النهائي على 6 ميزات (الجنس، والتعليم، والتدخين، ومرض السكري، وعدد الأسنان، ودرجة البلاك) مع مساحة تحت المنحنى (AUC) تبلغ 0.983 (95 ٪ CI 0.977-0.989) ونسبة الاحتمال الإيجابي (LR+) تبلغ 11.9 (95 ٪ CI 8.8-16.3). أسفر التعلم الآلي عن أداء أقل من نموذج MELR، مع قيم AUC (95 ٪ CI) و LR+ (95 ٪ CI) 0.712 (0.669-0.754) و 2.1 (1.8-2.6)، على التوالي، لنموذج الشبكة العصبية المتكررة ؛ 0.698 (0.681-0.734) و 2.1 (1.7-2.6)، على التوالي، لنموذج آلة دعم ناقلات التأثيرات المختلطة ؛ و 0.662 (0.621-0.702) و 2.4 (1.9-3.0)، على التوالي، لنموذج شجرة قرارات التأثيرات المختلطة. قد يكون نموذج MELR أكثر فائدة من التعلم الآلي للفحص على نطاق واسع لتحديد أولئك المعرضين لخطر الإصابة بالتهاب اللثة الحاد لتقييم اللثة. يلزم التحقق الخارجي باستخدام بيانات من مراكز أخرى لتقييم قابلية تعميم النموذج.

Translated Description (French)

La parodontite sévère touche 26 % des adultes thaïlandais et 11,2 % des adultes dans le monde et se caractérise par la perte de la hauteur des os alvéolaires. L'examen de la bouche complète par sonde parodontale est l'étalon-or pour le diagnostic, mais nécessite beaucoup de temps et de ressources. Un modèle de dépistage pour identifier les personnes à haut risque de parodontite sévère offrirait une approche ciblée et aiderait à réduire la charge de travail des dentistes. Bien que la modélisation statistique par régression logistique soit couramment appliquée, les performances optimales dépendent des sélections de fonctionnalités et de l'ingénierie. L'apprentissage automatique a récemment gagné en popularité compte tenu de son pouvoir discriminatoire potentiel et de sa capacité à traiter les interactions multi-voies sans les exigences d'hypothèses linéaires. Nous visons à comparer les performances des modèles de dépistage développés à l'aide d'approches statistiques et d'apprentissage automatique pour la prédiction des risques de parodontite sévère. Cette étude a utilisé les données de la cohorte prospective de l'Electricity Generating Authority of Thailand. Des examens dentaires ont été réalisés pour les enquêtes 2008 et 2013. Les examens bucco-dentaires (c'est-à-dire le nombre de dents et l'indice d'hygiène bucco-dentaire et les scores de plaque), la profondeur de la poche parodontale et la récession gingivale ont été effectués par les dentistes. Le résultat d'intérêt était une parodontite sévère diagnostiquée par le Centre de contrôle des maladies de l'Académie américaine de parodontologie, définie comme 2 sites interproximaux ou plus avec un niveau d'attachement clinique ≥6 mm (sur différentes dents) et 1 ou plusieurs sites interproximaux avec une profondeur de poche parodontale ≥5 mm. Des modèles de prédiction des risques ont été développés à l'aide d'une régression logistique à effets mixtes (MELR), d'un réseau de neurones récurrents, d'une machine à vecteurs de support à effets mixtes et de modèles d'arbres de décision à effets mixtes. Un total de 21 caractéristiques ont été considérées comme des caractéristiques prédictives, y compris 4 caractéristiques démographiques, 2 examens physiques, 4 maladies sous-jacentes, 1 médicament, 2 comportements à risque, 2 caractéristiques orales et 6 caractéristiques de laboratoire. Un total de 3 883 observations de 2 086 participants ont été divisées en ensembles de développement (n= 3 112, 80,1 %) et de validation (n=771, 19,9 %) avec des prévalences de parodontite de 34,4 % (n=1 070) et 34,1 % (n=263), respectivement. Le modèle MELR final contenait 6 caractéristiques (sexe, éducation, tabagisme, diabète sucré, nombre de dents et score de plaque) avec une aire sous la courbe (ASC) de 0,983 (IC à 95 % 0,977-0,989) et un rapport de vraisemblance positif (LR+) de 11,9 (IC à 95 % 8,8-16,3). L'apprentissage automatique a donné des performances inférieures à celles du modèle MELR, avec des valeurs AUC (IC à 95 %) et LR+ (IC à 95 %) de 0,712 (0,669-0,754) et 2,1 (1,8-2,6), respectivement, pour le modèle de réseau neuronal récurrent ; 0,698 (0,681-0,734) et 2,1 (1,7-2,6), respectivement, pour le modèle de machine à vecteur de soutien à effets mixtes ; et 0,662 (0,621-0,702) et 2,4 (1,9-3,0), respectivement, pour le modèle d'arbre de décision à effets mixtes. Le modèle MELR pourrait être plus utile que l'apprentissage automatique pour le dépistage à grande échelle afin d'identifier les personnes à risque élevé de parodontite sévère pour l'évaluation parodontale. Une validation externe à l'aide de données provenant d'autres centres est nécessaire pour évaluer la généralisabilité du modèle.

Translated Description (Spanish)

La periodontitis grave afecta al 26% de los adultos tailandeses y al 11,2% de los adultos de todo el mundo y se caracteriza por la pérdida de la altura del hueso alveolar. El examen de toda la boca mediante sondeo periodontal es el estándar de oro para el diagnóstico, pero requiere mucho tiempo y recursos. Un modelo de cribado para identificar a las personas con alto riesgo de periodontitis grave ofrecería un enfoque específico y ayudaría a reducir la carga de trabajo de los dentistas. Si bien el modelado estadístico mediante una regresión logística se aplica comúnmente, el rendimiento óptimo depende de la selección de características y la ingeniería. El aprendizaje automático ha estado ganando popularidad recientemente dado su potencial poder discriminatorio y su capacidad para lidiar con interacciones multidireccionales sin los requisitos de supuestos lineales. Nuestro objetivo es comparar el rendimiento de los modelos de detección desarrollados utilizando enfoques estadísticos y de aprendizaje automático para la predicción del riesgo de periodontitis severa. Este estudio utilizó datos de la cohorte prospectiva de la Autoridad de Generación de Electricidad de Tailandia. Se realizaron exámenes dentales para las encuestas de 2008 y 2013. Los exámenes bucales (es decir, el número de dientes y el índice de higiene bucal y las puntuaciones de placa), la profundidad de la bolsa periodontal y la recesión gingival fueron realizados por dentistas. El resultado de interés fue una periodontitis grave diagnosticada por el Centro para el Control de Enfermedades de la Academia Americana de Periodoncia, definida como 2 o más sitios interproximales con un nivel de inserción clínica ≥6 mm (en diferentes dientes) y 1 o más sitios interproximales con una profundidad de la bolsa periodontal ≥5 mm. Los modelos de predicción de riesgos se desarrollaron utilizando regresión logística de efectos mixtos (MELR), red neuronal recurrente, máquina de vectores de soporte de efectos mixtos y modelos de árbol de decisión de efectos mixtos. Un total de 21 características se consideraron características predictivas, incluidas 4 características demográficas, 2 exámenes físicos, 4 enfermedades subyacentes, 1 medicación, 2 comportamientos de riesgo, 2 características orales y 6 características de laboratorio. Un total de 3883 observaciones de 2086 participantes se dividieron en conjuntos de desarrollo (n=3112, 80.1%) y validación (n=771, 19.9%) con prevalencias de periodontitis del 34.4% (n=1070) y 34.1% (n=263), respectivamente. El modelo MELR final contenía 6 características (género, educación, tabaquismo, diabetes mellitus, número de dientes y puntuación de placa) con un área bajo la curva (AUC) de 0,983 (IC del 95%: 0,977-0,989) y una relación de probabilidad positiva (LR+) de 11,9 (IC del 95%: 8,8-16,3). El aprendizaje automático arrojó un rendimiento menor que el modelo MELR, con valores de AUC (IC del 95%) y LR+ (IC del 95%) de 0.712 (0.669-0.754) y 2.1 (1.8-2.6), respectivamente, para el modelo de red neuronal recurrente; 0.698 (0.681-0.734) y 2.1 (1.7-2.6), respectivamente, para el modelo de máquina vectorial de soporte de efectos mixtos; y 0.662 (0.621-0.702) y 2.4 (1.9-3.0), respectivamente, para el modelo de árbol de decisión de efectos mixtos. El modelo MELR podría ser más útil que el aprendizaje automático para la detección a gran escala para identificar a aquellos con alto riesgo de periodontitis grave para la evaluación periodontal. Se requiere validación externa utilizando datos de otros centros para evaluar la generalización del modelo.

Files

PDF.pdf

Files (192.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:3604c52467115f3b95e4dccae295a4f4
192.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تطوير نماذج التنبؤ بالمخاطر لالتهاب اللثة الحاد لدى السكان التايلانديين: مناهج التعلم الإحصائي والآلي
Translated title (French)
Développement de modèles de prévision des risques pour la parodontite sévère dans une population thaïlandaise : approches statistiques et d'apprentissage automatique
Translated title (Spanish)
Desarrollo de modelos de predicción de riesgos para la periodontitis grave en una población tailandesa: enfoques estadísticos y de aprendizaje automático

Identifiers

Other
https://openalex.org/W4389732888
DOI
10.2196/48351

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W1516017103
  • https://openalex.org/W1680797894
  • https://openalex.org/W1753410634
  • https://openalex.org/W1972034726
  • https://openalex.org/W1975376382
  • https://openalex.org/W1987783078
  • https://openalex.org/W1991309140
  • https://openalex.org/W1994961181
  • https://openalex.org/W2006353560
  • https://openalex.org/W2014581807
  • https://openalex.org/W2023214515
  • https://openalex.org/W2052170340
  • https://openalex.org/W2063653505
  • https://openalex.org/W2080452188
  • https://openalex.org/W2090155923
  • https://openalex.org/W2110356699
  • https://openalex.org/W2117852552
  • https://openalex.org/W2119511177
  • https://openalex.org/W2121464644
  • https://openalex.org/W2154853273
  • https://openalex.org/W2155046404
  • https://openalex.org/W2166805130
  • https://openalex.org/W2295349675
  • https://openalex.org/W2594563067
  • https://openalex.org/W2606491090
  • https://openalex.org/W2792919287
  • https://openalex.org/W2794778778
  • https://openalex.org/W2936573766
  • https://openalex.org/W2939599795
  • https://openalex.org/W2947628075
  • https://openalex.org/W3012413426
  • https://openalex.org/W3042997832
  • https://openalex.org/W4211095696
  • https://openalex.org/W4239028530
  • https://openalex.org/W4389732888