Random forest algorithm-based accurate prediction of rat acute oral toxicity
- 1. Suzhou Institute of Systems Medicine
- 2. Peking University
- 3. Zhejiang University
- 4. Chongqing Medical University
- 5. Peking University People's Hospital
- 6. Washington University in St. Louis
- 7. Jilin Normal University
- 8. Peking Union Medical College Hospital
- 9. Chinese Academy of Medical Sciences & Peking Union Medical College
Description
Predicting acute oral toxicity LD50 of chemicals in rats is a challenge since many factors affect toxicity data. In this paper, 40 descriptors were successfully used to develop a quantitative structure–activity relationship model for 8448 rat acute oral toxicity logLD50 by applying the random forest (RF) algorithm. To develop the optimal RF model, a training set (5914 chemicals) was used to establish models, a validation set (1267 chemicals) used to tune RF parameters and a test set (1267 chemicals) used to assess the performance of RF models. It yielded correlation coefficients R of 0.9695 and rms errors (log unit) of 0.3171 for the training set, R = 0.8322 and rms = 0.2889 for the validation set and R = 0.8335 and rms = 0.3060 for the test set. More than 99% of rat acute oral toxicity logLD50 in the dataset can be accurately predicted, although the dataset is large.
Translated Descriptions
Translated Description (Arabic)
يمثل التنبؤ بالسمية الفموية الحادة LD50 للمواد الكيميائية في الفئران تحديًا نظرًا لأن العديد من العوامل تؤثر على بيانات السمية. في هذه الورقة، تم استخدام 40 واصفًا بنجاح لتطوير نموذج العلاقة الكمية بين البنية والنشاط لـ 8448 سجل السمية الفموية الحادة للفئران LD50 من خلال تطبيق خوارزمية الغابة العشوائية (RF). لتطوير نموذج التردد اللاسلكي الأمثل، تم استخدام مجموعة تدريب (5914 مادة كيميائية) لإنشاء نماذج، ومجموعة تحقق (1267 مادة كيميائية) تستخدم لضبط معلمات التردد اللاسلكي ومجموعة اختبار (1267 مادة كيميائية) تستخدم لتقييم أداء نماذج التردد اللاسلكي. أسفرت عن معاملات ارتباط R من 0.9695 وأخطاء RMS (وحدة لوغاريتمية) من 0.3171 لمجموعة التدريب، R = 0.8322 و RMS = 0.2889 لمجموعة التحقق و R = 0.8335 و RMS = 0.3060 لمجموعة الاختبار. يمكن التنبؤ بدقة بأكثر من 99 ٪ من سجل السمية الفموية الحادة للفئران في مجموعة البيانات، على الرغم من أن مجموعة البيانات كبيرة.Translated Description (French)
Prédire la DL50 de toxicité aiguë par voie orale des produits chimiques chez le rat est un défi car de nombreux facteurs affectent les données de toxicité. Dans cet article, 40 descripteurs ont été utilisés avec succès pour développer un modèle quantitatif de relation structure-activité pour 8448 rats à toxicité orale aiguë logLD50 en appliquant l'algorithme de forêt aléatoire (RF). Pour développer le modèle RF optimal, un ensemble de formation (5914 produits chimiques) a été utilisé pour établir des modèles, un ensemble de validation (1267 produits chimiques) utilisé pour ajuster les paramètres RF et un ensemble de test (1267 produits chimiques) utilisé pour évaluer la performance des modèles RF. Il a donné des coefficients de corrélation R de 0,9695 et des erreurs rms (unité logarithmique) de 0,3171 pour l'ensemble d'apprentissage, R = 0,8322 et rms = 0,2889 pour l'ensemble de validation et R = 0,8335 et rms = 0,3060 pour l'ensemble de test. Plus de 99 % du logLD50 de toxicité aiguë par voie orale chez le rat dans l'ensemble de données peuvent être prédits avec précision, bien que l'ensemble de données soit volumineux.Translated Description (Spanish)
Predecir la toxicidad oral aguda DL50 de los productos químicos en ratas es un desafío, ya que muchos factores afectan los datos de toxicidad. En este documento, se utilizaron con éxito 40 descriptores para desarrollar un modelo cuantitativo de relación estructura-actividad para 8448 logLD50 de toxicidad oral aguda en ratas mediante la aplicación del algoritmo de bosque aleatorio (RF). Para desarrollar el modelo de RF óptimo, se utilizó un conjunto de entrenamiento (5914 productos químicos) para establecer modelos, un conjunto de validación (1267 productos químicos) para ajustar los parámetros de RF y un conjunto de pruebas (1267 productos químicos) para evaluar el rendimiento de los modelos de RF. Se obtuvieron coeficientes de correlación R de 0,9695 y errores rms (unidad logarítmica) de 0,3171 para el conjunto de entrenamiento, R = 0,8322 y rms = 0,2889 para el conjunto de validación y R = 0,8335 y rms = 0,3060 para el conjunto de prueba. Más del 99% de la toxicidad oral aguda de rata logLD50 en el conjunto de datos se puede predecir con precisión, aunque el conjunto de datos es grande.Additional details
Additional titles
- Translated title (Arabic)
- التنبؤ الدقيق القائم على خوارزمية الغابات العشوائية للسمية الفموية الحادة للفئران
- Translated title (French)
- Prédiction précise de la toxicité orale aiguë chez le rat basée sur un algorithme de forêt aléatoire
- Translated title (Spanish)
- Predicción precisa basada en algoritmos de bosque aleatorio de la toxicidad oral aguda en ratas
Identifiers
- Other
- https://openalex.org/W4394161420
- DOI
- 10.6084/m9.figshare.21444642