Exploring the QSAR's predictive truthfulness of the novel <i>N</i>-tuple discrete derivative indices on benchmark datasets
Creators
- 1. Central University of Las Villas
- 2. Research International (United States)
- 3. University of Cartagena
- 4. Fundación Universitaria Tecnológico Comfenalco Cartagena
- 5. Universidad San Francisco de Quito
- 6. Autonomous University of Madrid
- 7. Universidad Andrés Bello
- 8. University of Camagüey
- 9. Universidad del Sinú
Description
Graph derivative indices (GDIs) have recently been defined over N-atoms (N = 2, 3 and 4) simultaneously, which are based on the concept of derivatives in discrete mathematics (finite difference), metaphorical to the derivative concept in classical mathematical analysis. These molecular descriptors (MDs) codify topo-chemical and topo-structural information based on the concept of the derivative of a molecular graph with respect to a given event (S) over duplex, triplex and quadruplex relations of atoms (vertices). These GDIs have been successfully applied in the description of physicochemical properties like reactivity, solubility and chemical shift, among others, and in several comparative quantitative structure activity/property relationship (QSAR/QSPR) studies. Although satisfactory results have been obtained in previous modelling studies with the aforementioned indices, it is necessary to develop new, more rigorous analysis to assess the true predictive performance of the novel structure codification. So, in the present paper, an assessment and statistical validation of the performance of these novel approaches in QSAR studies are executed, as well as a comparison with those of other QSAR procedures reported in the literature. To achieve the main aim of this research, QSARs were developed on eight chemical datasets widely used as benchmarks in the evaluation/validation of several QSAR methods and/or many different MDs (fundamentally 3D MDs). Three to seven variable QSAR models were built for each chemical dataset, according to the original dissection into training/test sets. The models were developed by using multiple linear regression (MLR) coupled with a genetic algorithm as the feature wrapper selection technique in the MobyDigs software. Each family of GDIs (for duplex, triplex and quadruplex) behaves similarly in all modelling, although there were some exceptions. However, when all families were used in combination, the results achieved were quantitatively higher than those reported by other authors in similar experiments. Comparisons with respect to external correlation coefficients (q2ext) revealed that the models based on GDIs possess superior predictive ability in seven of the eight datasets analysed, outperforming methodologies based on similar or more complex techniques and confirming the good predictive power of the obtained models. For the q2ext values, the non-parametric comparison revealed significantly different results to those reported so far, which demonstrated that the models based on DIVATI's indices presented the best global performance and yielded significantly better predictions than the 12 0–3D QSAR procedures used in the comparison. Therefore, GDIs are suitable for structure codification of the molecules and constitute a good alternative to build QSARs for the prediction of physicochemical, biological and environmental endpoints.
Translated Descriptions
Translated Description (Arabic)
تم تعريف مؤشرات المشتقات البيانية (GDIs) مؤخرًا على ذرات N (N = 2 و 3 و 4) في وقت واحد، والتي تستند إلى مفهوم المشتقات في الرياضيات المنفصلة (الفرق المحدود)، مجازيًا لمفهوم المشتقات في التحليل الرياضي الكلاسيكي. تقوم هذه الأوصاف الجزيئية (MDs) بتدوين المعلومات الطوبوكيميائية والهيكلية الطوبوغرافية بناءً على مفهوم مشتق الرسم البياني الجزيئي فيما يتعلق بحدث (أحداث) معين على العلاقات المزدوجة والثلاثية والرباعية للذرات (الرؤوس). وقد تم تطبيق هذه المؤشرات بنجاح في وصف الخصائص الفيزيائية والكيميائية مثل التفاعل والذوبان والتحول الكيميائي، من بين أمور أخرى، وفي العديد من الدراسات المقارنة لنشاط الهيكل الكمي/علاقة الملكية (QSAR/QSPR). على الرغم من الحصول على نتائج مرضية في دراسات النمذجة السابقة مع المؤشرات المذكورة أعلاه، فمن الضروري تطوير تحليل جديد أكثر صرامة لتقييم الأداء التنبؤي الحقيقي لتدوين الهيكل الجديد. لذلك، في هذه الورقة، يتم إجراء تقييم والتحقق الإحصائي من أداء هذه الأساليب الجديدة في دراسات QSAR، بالإضافة إلى مقارنة مع إجراءات QSAR الأخرى المبلغ عنها في الأدبيات. لتحقيق الهدف الرئيسي من هذا البحث، تم تطوير QSARs على ثماني مجموعات بيانات كيميائية تستخدم على نطاق واسع كمعايير في تقييم/التحقق من العديد من طرق QSAR و/أو العديد من MDs المختلفة (MDs ثلاثية الأبعاد بشكل أساسي). تم بناء ثلاثة إلى سبعة نماذج QSAR متغيرة لكل مجموعة بيانات كيميائية، وفقًا للتشريح الأصلي في مجموعات التدريب/الاختبار. تم تطوير النماذج باستخدام الانحدار الخطي المتعدد (MLR) إلى جانب خوارزمية وراثية كتقنية اختيار غلاف الميزة في برنامج MobyDigs. تتصرف كل عائلة من GDIs (للطباعة المزدوجة والثلاثية والرباعية) بشكل مشابه في جميع النماذج، على الرغم من وجود بعض الاستثناءات. ومع ذلك، عندما تم استخدام جميع العائلات مجتمعة، كانت النتائج المحققة أعلى كميًا من تلك التي أبلغ عنها مؤلفون آخرون في تجارب مماثلة. كشفت المقارنات فيما يتعلق بمعاملات الارتباط الخارجية (q2ext) أن النماذج القائمة على مؤشرات النوع الاجتماعي تمتلك قدرة تنبؤية فائقة في سبع من مجموعات البيانات الثماني التي تم تحليلها، وتتفوق على المنهجيات القائمة على تقنيات مماثلة أو أكثر تعقيدًا وتؤكد القوة التنبؤية الجيدة للنماذج التي تم الحصول عليها. بالنسبة لقيم q2ext، كشفت المقارنة غير البارامترية عن نتائج مختلفة بشكل كبير عن تلك التي تم الإبلاغ عنها حتى الآن، والتي أظهرت أن النماذج القائمة على مؤشرات DIVATI قدمت أفضل أداء عالمي وأسفرت عن تنبؤات أفضل بكثير من إجراءات 12 0-3 D QSAR المستخدمة في المقارنة. لذلك، فإن GDIs مناسبة لترميز بنية الجزيئات وتشكل بديلاً جيدًا لبناء QSARs للتنبؤ بنقاط النهاية الفيزيائية والكيميائية والبيولوجية والبيئية.Translated Description (French)
Des indices de dérivées de graphes (IDG) ont récemment été définis sur des N-atomes (N = 2, 3 et 4) simultanément, qui sont basés sur le concept de dérivées en mathématiques discrètes (différence finie), métaphorique au concept de dérivées en analyse mathématique classique. Ces descripteurs moléculaires (MD) codifient des informations topochimiques et topostructurales basées sur le concept de la dérivée d'un graphe moléculaire par rapport à un événement (S) donné sur des relations duplex, triplex et quadruplex d'atomes (sommets). Ces IDG ont été appliquées avec succès dans la description de propriétés physico-chimiques telles que la réactivité, la solubilité et le déplacement chimique, entre autres, et dans plusieurs études comparatives quantitatives de la relation activité/propriété de la structure (QSAR/QSPR). Bien que des résultats satisfaisants aient été obtenus dans des études de modélisation antérieures avec les indices susmentionnés, il est nécessaire de développer une nouvelle analyse plus rigoureuse pour évaluer la véritable performance prédictive de la codification de la nouvelle structure. Ainsi, dans le présent article, une évaluation et une validation statistique de la performance de ces nouvelles approches dans les études QSAR sont exécutées, ainsi qu'une comparaison avec celles d'autres procédures QSAR rapportées dans la littérature. Pour atteindre l'objectif principal de cette recherche, des QSAR ont été développés sur huit ensembles de données chimiques largement utilisés comme repères dans l'évaluation/validation de plusieurs méthodes QSAR et/ou de nombreux DM différents (fondamentalement des DM 3D). Trois à sept modèles QSAR variables ont été construits pour chaque ensemble de données chimiques, selon la dissection originale en ensembles de formation/test. Les modèles ont été développés en utilisant la régression linéaire multiple (MLR) couplée à un algorithme génétique comme technique de sélection d'enveloppe de caractéristiques dans le logiciel MobyDigs. Chaque famille de GDI (pour le duplex, le triplex et le quadruplex) se comporte de manière similaire dans toutes les modélisations, bien qu'il y ait eu quelques exceptions. Cependant, lorsque toutes les familles ont été utilisées en combinaison, les résultats obtenus étaient quantitativement plus élevés que ceux rapportés par d'autres auteurs dans des expériences similaires. Les comparaisons par rapport aux coefficients de corrélation externes (q2ext) ont révélé que les modèles basés sur les IDG possèdent une capacité prédictive supérieure dans sept des huit ensembles de données analysés, surpassant les méthodologies basées sur des techniques similaires ou plus complexes et confirmant le bon pouvoir prédictif des modèles obtenus. Pour les valeurs q2ext, la comparaison non paramétrique a révélé des résultats significativement différents de ceux rapportés jusqu'à présent, ce qui a démontré que les modèles basés sur les indices de DIVATI présentaient les meilleures performances globales et donnaient des prédictions significativement meilleures que les procédures QSAR 12 0–3D utilisées dans la comparaison. Par conséquent, les GDI conviennent à la codification de la structure des molécules et constituent une bonne alternative pour construire des QSAR pour la prédiction des paramètres physico-chimiques, biologiques et environnementaux.Translated Description (Spanish)
Los índices de derivadas gráficas (GDI) se han definido recientemente sobre N-átomos (N = 2, 3 y 4) simultáneamente, que se basan en el concepto de derivadas en matemáticas discretas (diferencia finita), metafórico al concepto de derivada en el análisis matemático clásico. Estos descriptores moleculares (MD) codifican información topoquímica y topoestructural basada en el concepto de la derivada de un gráfico molecular con respecto a un evento (S) dado sobre relaciones dúplex, tríplex y cuádruplex de átomos (vértices). Estos GDI se han aplicado con éxito en la descripción de propiedades fisicoquímicas como la reactividad, la solubilidad y el desplazamiento químico, entre otros, y en varios estudios comparativos cuantitativos de relación estructura actividad/propiedad (QSAR/QSPR). Aunque se han obtenido resultados satisfactorios en estudios de modelización previos con los índices antes mencionados, es necesario desarrollar un análisis nuevo y más riguroso para evaluar el verdadero rendimiento predictivo de la codificación de la estructura novedosa. Por lo tanto, en el presente documento, se ejecuta una evaluación y validación estadística del desempeño de estos enfoques novedosos en estudios QSAR, así como una comparación con los de otros procedimientos QSAR informados en la literatura. Para lograr el objetivo principal de esta investigación, se desarrollaron QSAR en ocho conjuntos de datos químicos ampliamente utilizados como puntos de referencia en la evaluación/validación de varios métodos QSAR y/o muchos MD diferentes (fundamentalmente MD 3D). Se construyeron de tres a siete modelos QSAR variables para cada conjunto de datos químicos, de acuerdo con la disección original en conjuntos de entrenamiento/prueba. Los modelos se desarrollaron mediante el uso de regresión lineal múltiple (MLR) junto con un algoritmo genético como técnica de selección de envoltorios de características en el software MobyDigs. Cada familia de IDG (para dúplex, triplex y cuádruplex) se comporta de manera similar en todos los modelos, aunque hubo algunas excepciones. Sin embargo, cuando se utilizaron todas las familias en combinación, los resultados obtenidos fueron cuantitativamente más altos que los informados por otros autores en experimentos similares. Las comparaciones con respecto a los coeficientes de correlación externa (q2ext) revelaron que los modelos basados en GDI poseen una capacidad predictiva superior en siete de los ocho conjuntos de datos analizados, superando a las metodologías basadas en técnicas similares o más complejas y confirmando el buen poder predictivo de los modelos obtenidos. Para los valores q2ext, la comparación no paramétrica reveló resultados significativamente diferentes a los reportados hasta el momento, lo que demostró que los modelos basados en los índices de DIVATI presentaron el mejor rendimiento global y arrojaron predicciones significativamente mejores que los 12 procedimientos QSAR 0-3D utilizados en la comparación. Por lo tanto, los GDI son adecuados para la codificación de la estructura de las moléculas y constituyen una buena alternativa para construir QSAR para la predicción de puntos finales fisicoquímicos, biológicos y ambientales.Files
8623003.pdf.pdf
Files
(2.3 MB)
Name | Size | Download all |
---|---|---|
md5:28da230701593d180a7cce292b2154f2
|
2.3 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- استكشاف المصداقية التنبؤية لـ QSAR لمؤشرات المشتقات المنفصلة <i>N</i>- tuple الجديدة على مجموعات البيانات المعيارية
- Translated title (French)
- Exploration de la véracité prédictive du QSAR des nouveaux indices dérivés discrets <i>N</i>-tuple sur des ensembles de données de référence
- Translated title (Spanish)
- Exploración de la veracidad predictiva de la QSAR de los nuevos índices <i>derivados</i>discretos de N-tupla en conjuntos de datos de referencia
Identifiers
- Other
- https://openalex.org/W2623836061
- DOI
- 10.1080/1062936x.2017.1326403
References
- https://openalex.org/W182829469
- https://openalex.org/W1978914444
- https://openalex.org/W1985080945
- https://openalex.org/W1988771765
- https://openalex.org/W1990200116
- https://openalex.org/W1995875735
- https://openalex.org/W2000950277
- https://openalex.org/W2013279548
- https://openalex.org/W2016703634
- https://openalex.org/W2025223367
- https://openalex.org/W2026610312
- https://openalex.org/W2027323036
- https://openalex.org/W2030038317
- https://openalex.org/W2030231778
- https://openalex.org/W2032245355
- https://openalex.org/W2033757486
- https://openalex.org/W2043906184
- https://openalex.org/W2049736842
- https://openalex.org/W2049775299
- https://openalex.org/W2052008210
- https://openalex.org/W2053490329
- https://openalex.org/W2071958671
- https://openalex.org/W2079105106
- https://openalex.org/W2081982874
- https://openalex.org/W2084063333
- https://openalex.org/W2086936642
- https://openalex.org/W2090700201
- https://openalex.org/W2095151209
- https://openalex.org/W2095691435
- https://openalex.org/W2107680276
- https://openalex.org/W2117920213
- https://openalex.org/W2121612327
- https://openalex.org/W2133293687
- https://openalex.org/W2134624458
- https://openalex.org/W2142512079
- https://openalex.org/W2144451477
- https://openalex.org/W2148797284
- https://openalex.org/W2148933468
- https://openalex.org/W2152649144
- https://openalex.org/W2163799196
- https://openalex.org/W2170796849
- https://openalex.org/W2399390645
- https://openalex.org/W2417072974
- https://openalex.org/W2463697596
- https://openalex.org/W2597584786
- https://openalex.org/W2758699603
- https://openalex.org/W2952989239
- https://openalex.org/W2989429641
- https://openalex.org/W4213151958
- https://openalex.org/W4241599251