Published February 25, 2016 | Version v1
Publication Open

Examining the predictive accuracy of the novel 3D N-linear algebraic molecular codifications on benchmark datasets

  • 1. Pontificia Universidad Católica del Ecuador
  • 2. University of Information Science
  • 3. Research International (United States)

Description

Recently, novel 3D alignment-free molecular descriptors (also known as QuBiLS-MIDAS) based on two-linear, three-linear and four-linear algebraic forms have been introduced. These descriptors codify chemical information for relations between two, three and four atoms by using several (dis-)similarity metrics and multi-metrics. Several studies aimed at assessing the quality of these novel descriptors have been performed. However, a deeper analysis of their performance is necessary. Therefore, in the present manuscript an assessment and statistical validation of the performance of these novel descriptors in QSAR studies is performed.To this end, eight molecular datasets (angiotensin converting enzyme, acetylcholinesterase inhibitors, benzodiazepine receptor, cyclooxygenase-2 inhibitors, dihydrofolate reductase inhibitors, glycogen phosphorylase b, thermolysin inhibitors, thrombin inhibitors) widely used as benchmarks in the evaluation of several procedures are utilized. Three to nine variable QSAR models based on Multiple Linear Regression are built for each chemical dataset according to the original division into training/test sets. Comparisons with respect to leave-one-out cross-validation correlation coefficients[Formula: see text] reveal that the models based on QuBiLS-MIDAS indices possess superior predictive ability in 7 of the 8 datasets analyzed, outperforming methodologies based on similar or more complex techniques such as: Partial Least Square, Neural Networks, Support Vector Machine and others. On the other hand, superior external correlation coefficients[Formula: see text] are attained in 6 of the 8 test sets considered, confirming the good predictive power of the obtained models. For the [Formula: see text] values non-parametric statistic tests were performed, which demonstrated that the models based on QuBiLS-MIDAS indices have the best global performance and yield significantly better predictions in 11 of the 12 QSAR procedures used in the comparison. Lastly, a study concerning to the performance of the indices according to several conformer generation methods was performed. This demonstrated that the quality of predictions of the QSAR models based on QuBiLS-MIDAS indices depend on 3D structure generation method considered, although in this preliminary study the results achieved do not present significant statistical differences among them.As conclusions it can be stated that the QuBiLS-MIDAS indices are suitable for extracting structural information of the molecules and thus, constitute a promissory alternative to build models that contribute to the prediction of pharmacokinetic, pharmacodynamics and toxicological properties on novel compounds.Graphical abstractComparative graphical representation of the performance of the novel QuBiLS-MIDAS 3D-MDs with respect to other methodologies in QSAR modeling of eight chemical datasets.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في الآونة الأخيرة، تم إدخال واصفات جزيئية جديدة خالية من المحاذاة ثلاثية الأبعاد (تُعرف أيضًا باسم QuBiLS - MIDAS) تعتمد على أشكال جبرية ثنائية وثلاثية وأربعة خطية. تقوم هذه الأوصاف بتدوين المعلومات الكيميائية للعلاقات بين ذرتين وثلاث وأربع ذرات باستخدام العديد من مقاييس التشابه (dis -) والقياسات المتعددة. تم إجراء العديد من الدراسات التي تهدف إلى تقييم جودة هذه الأوصاف الجديدة. ومع ذلك، من الضروري إجراء تحليل أعمق لأدائهم. لذلك، في المخطوطة الحالية، يتم إجراء تقييم والتحقق الإحصائي من أداء هذه الأوصاف الجديدة في دراسات QSAR. ولهذه الغاية، يتم استخدام ثماني مجموعات بيانات جزيئية (إنزيم تحويل الأنجيوتنسين، ومثبطات إنزيم الأسيتيل كولين، ومستقبلات البنزوديازيبين، ومثبطات إنزيم سيكلوكسيجيناز-2، ومثبطات إنزيم ديهيدروفولات، وفوسفوريلاز الجليكوجين ب، ومثبطات الحالة الحرارية، ومثبطات الثرومبين) على نطاق واسع كمعايير في تقييم العديد من الإجراءات. تم بناء ثلاثة إلى تسعة نماذج QSAR متغيرة بناءً على الانحدار الخطي المتعدد لكل مجموعة بيانات كيميائية وفقًا للتقسيم الأصلي إلى مجموعات تدريب/اختبار. تكشف المقارنات فيما يتعلق بمعاملات ارتباط التحقق المتبادل المستبعد [الصيغة: انظر النص] أن النماذج القائمة على مؤشرات QuBiLS - MIDAS تمتلك قدرة تنبؤية فائقة في 7 من أصل 8 مجموعات بيانات تم تحليلها، وتتفوق على المنهجيات القائمة على تقنيات مماثلة أو أكثر تعقيدًا مثل: المربع الأصغر الجزئي، والشبكات العصبية، وآلة ناقلات الدعم وغيرها. من ناحية أخرى، يتم تحقيق معاملات ارتباط خارجية متفوقة [الصيغة: انظر النص] في 6 من مجموعات الاختبار الثمانية التي تم النظر فيها، مما يؤكد القوة التنبؤية الجيدة للنماذج التي تم الحصول عليها. بالنسبة لـ [الصيغة: انظر النص]، تم إجراء اختبارات إحصائية غير بارامترية للقيم، والتي أظهرت أن النماذج القائمة على مؤشرات QuBiLS - MIDAS تتمتع بأفضل أداء عالمي وتنتج تنبؤات أفضل بكثير في 11 من أصل 12 إجراء QSAR المستخدمة في المقارنة. أخيرًا، تم إجراء دراسة تتعلق بأداء المؤشرات وفقًا لعدة طرق لتوليد المطابقة. أظهر هذا أن جودة تنبؤات نماذج QSAR بناءً على مؤشرات QuBiLS - MIDAS تعتمد على طريقة إنشاء البنية ثلاثية الأبعاد التي تم أخذها في الاعتبار، على الرغم من أن النتائج المحققة في هذه الدراسة الأولية لا تقدم اختلافات إحصائية كبيرة فيما بينها. وكاستنتاجات، يمكن القول إن مؤشرات QuBiLS - MIDAS مناسبة لاستخراج المعلومات الهيكلية للجزيئات، وبالتالي تشكل بديلاً إذنيًا لبناء نماذج تساهم في التنبؤ بالحرائك الدوائية والديناميكا الدوائية والخصائص السمية على مركبات جديدة. الملخص الرسومي تمثيل رسومي مقارن لأداء QuBiLS - MIDAS 3D - MDS الجديدة فيما يتعلق بالمنهجيات الأخرى في نمذجة QSAR لثماني مجموعات بيانات كيميائية.

Translated Description (French)

Récemment, de nouveaux descripteurs moléculaires sans alignement 3D (également connus sous le nom de QuBiLS-MIDAS) basés sur des formes algébriques bi-linéaires, tri-linéaires et quadri-linéaires ont été introduits. Ces descripteurs codifient les informations chimiques pour les relations entre deux, trois et quatre atomes en utilisant plusieurs métriques de (dis-)similarité et multi-métriques. Plusieurs études visant à évaluer la qualité de ces nouveaux descripteurs ont été réalisées. Cependant, une analyse plus approfondie de leurs performances est nécessaire. Par conséquent, dans le présent manuscrit, une évaluation et une validation statistique de la performance de ces nouveaux descripteurs dans les études QSAR sont effectuées. À cette fin, huit ensembles de données moléculaires (enzyme de conversion de l'angiotensine, inhibiteurs de l'acétylcholinestérase, récepteur de la benzodiazépine, inhibiteurs de la cyclooxygénase-2, inhibiteurs de la dihydrofolate réductase, glycogène phosphorylase b, inhibiteurs de la thermolysine, inhibiteurs de la thrombine) largement utilisés comme repères dans l'évaluation de plusieurs procédures sont utilisés. Trois à neuf modèles QSAR variables basés sur la régression linéaire multiple sont construits pour chaque ensemble de données chimiques en fonction de la division initiale en ensembles de formation/test. Les comparaisons en ce qui concerne les coefficients de corrélation de validation croisée sans exception [Formule : voir texte] révèlent que les modèles basés sur les indices QuBiLS-MIDAS possèdent une capacité prédictive supérieure dans 7 des 8 ensembles de données analysés, surpassant les méthodologies basées sur des techniques similaires ou plus complexes telles que : Partial Least Square, Neural Networks, Support Vector Machine et autres. En revanche, des coefficients de corrélation externe supérieurs [Formule : voir texte] sont atteints dans 6 des 8 jeux de test considérés, confirmant le bon pouvoir prédictif des modèles obtenus. Pour les valeurs de [Formule : voir texte], des tests statistiques non paramétriques ont été effectués, qui ont démontré que les modèles basés sur les indices QuBiLS-MIDAS ont les meilleures performances globales et donnent des prédictions nettement meilleures dans 11 des 12 procédures QSAR utilisées dans la comparaison. Enfin, une étude concernant la performance des indices selon plusieurs méthodes de génération de conformères a été réalisée. Cela a démontré que la qualité des prédictions des modèles QSAR basés sur les indices QuBiLS-MIDAS dépend de la méthode de génération de structure 3D considérée, bien que dans cette étude préliminaire les résultats obtenus ne présentent pas de différences statistiques significatives entre eux. Comme conclusions, on peut affirmer que les indices QuBiLS-MIDAS sont appropriés pour extraire des informations structurelles des molécules et constituent donc une alternative prometteuse pour construire des modèles qui contribuent à la prédiction des propriétés pharmacocinétiques, pharmacodynamiques et toxicologiques sur de nouveaux composés. Abrégé graphique Représentation graphique comparative de la performance des nouveaux 3D-MD QuBiLS-MIDAS par rapport à d'autres méthodologies dans la modélisation QSAR de huit ensembles de données chimiques.

Translated Description (Spanish)

Recientemente, se han introducido nuevos descriptores moleculares sin alineación 3D (también conocidos como QuBiLS-MIDAS) basados en formas algebraicas de dos, tres y cuatro líneas. Estos descriptores codifican la información química para las relaciones entre dos, tres y cuatro átomos mediante el uso de varias métricas y multimétricas de (dis-)similitud. Se han realizado varios estudios destinados a evaluar la calidad de estos nuevos descriptores. Sin embargo, es necesario un análisis más profundo de su desempeño. Por lo tanto, en el presente manuscrito se realiza una evaluación y validación estadística del rendimiento de estos nuevos descriptores en estudios QSAR. Con este fin, se utilizan ocho conjuntos de datos moleculares (enzima convertidora de angiotensina, inhibidores de acetilcolinesterasa, receptor de benzodiazepina, inhibidores de ciclooxigenasa-2, inhibidores de dihidrofolato reductasa, glucógeno fosforilasa b, inhibidores de termolisina, inhibidores de trombina) ampliamente utilizados como puntos de referencia en la evaluación de varios procedimientos. Se construyen de tres a nueve modelos QSAR variables basados en Regresión Lineal Múltiple para cada conjunto de datos químicos de acuerdo con la división original en conjuntos de entrenamiento/prueba. Las comparaciones con respecto a los coeficientes de correlación de validación cruzada de dejar uno fuera [Fórmula: ver texto] revelan que los modelos basados en índices QuBiLS-MIDAS poseen una capacidad predictiva superior en 7 de los 8 conjuntos de datos analizados, superando metodologías basadas en técnicas similares o más complejas como: Mínimos cuadrados parciales, redes neuronales, máquina de vectores de soporte y otras. Por otro lado, se alcanzan coeficientes de correlación externa superiores [Fórmula: ver texto] en 6 de los 8 conjuntos de pruebas considerados, confirmando el buen poder predictivo de los modelos obtenidos. Para los valores de [Fórmula: ver texto] se realizaron pruebas estadísticas no paramétricas, que demostraron que los modelos basados en índices QuBiLS-MIDAS tienen el mejor rendimiento global y producen predicciones significativamente mejores en 11 de los 12 procedimientos QSAR utilizados en la comparación. Por último, se realizó un estudio sobre el rendimiento de los índices de acuerdo con varios métodos de generación de conformadores. Esto demostró que la calidad de las predicciones de los modelos QSAR basados en índices QuBiLS-MIDAS dependen del método de generación de estructura 3D considerado, aunque en este estudio preliminar los resultados obtenidos no presentan diferencias estadísticas significativas entre ellos. Como conclusiones se puede afirmar que los índices QuBiLS-MIDAS son adecuados para extraer información estructural de las moléculas y, por lo tanto, constituyen una alternativa promisoria para construir modelos que contribuyan a la predicción de propiedades farmacocinéticas, farmacodinámicas y toxicológicas en compuestos novedosos. Resumen gráficoRepresentación gráfica comparativa del rendimiento de los nuevos QuBiLS-MIDAS 3D-MD con respecto a otras metodologías en el modelado QSAR de ocho conjuntos de datos químicos.

Files

s13321-016-0122-x.pdf

Files (2.7 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:d1eaeae4976f405a846bc09572edb5e2
2.7 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
فحص الدقة التنبؤية للتدوينات الجزيئية الجبرية ثلاثية الأبعاد ثلاثية الأبعاد على مجموعات البيانات المعيارية
Translated title (French)
Examen de la précision prédictive des nouvelles codifications moléculaires algébriques N-linéaires 3D sur des ensembles de données de référence
Translated title (Spanish)
Examinar la precisión predictiva de las nuevas codificaciones moleculares algebraicas N-lineales 3D en conjuntos de datos de referencia

Identifiers

Other
https://openalex.org/W2285381155
DOI
10.1186/s13321-016-0122-x

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Cuba

References

  • https://openalex.org/W144050542
  • https://openalex.org/W1512018280
  • https://openalex.org/W1573940592
  • https://openalex.org/W182829469
  • https://openalex.org/W1976848779
  • https://openalex.org/W1977566906
  • https://openalex.org/W1978675307
  • https://openalex.org/W1978914444
  • https://openalex.org/W1979453374
  • https://openalex.org/W1983492171
  • https://openalex.org/W1985080945
  • https://openalex.org/W1993180192
  • https://openalex.org/W1995743463
  • https://openalex.org/W2003447360
  • https://openalex.org/W2011703862
  • https://openalex.org/W2012342139
  • https://openalex.org/W2015870870
  • https://openalex.org/W2016944307
  • https://openalex.org/W2017398555
  • https://openalex.org/W2025223367
  • https://openalex.org/W2032245355
  • https://openalex.org/W2042676708
  • https://openalex.org/W2043906184
  • https://openalex.org/W2063060349
  • https://openalex.org/W2066854714
  • https://openalex.org/W2066939527
  • https://openalex.org/W2071158076
  • https://openalex.org/W2071663913
  • https://openalex.org/W2072537419
  • https://openalex.org/W2076161502
  • https://openalex.org/W2100125011
  • https://openalex.org/W2104499761
  • https://openalex.org/W2117920213
  • https://openalex.org/W2121612327
  • https://openalex.org/W2123676318
  • https://openalex.org/W2144451477
  • https://openalex.org/W2148797284
  • https://openalex.org/W2148933468
  • https://openalex.org/W2151554678
  • https://openalex.org/W2152629484
  • https://openalex.org/W2159887157
  • https://openalex.org/W2163799196
  • https://openalex.org/W2166036342
  • https://openalex.org/W2169678694
  • https://openalex.org/W2172236534
  • https://openalex.org/W2437573449
  • https://openalex.org/W2758699603
  • https://openalex.org/W2949801754
  • https://openalex.org/W3006227194
  • https://openalex.org/W3108230712
  • https://openalex.org/W3165931875
  • https://openalex.org/W4229977739
  • https://openalex.org/W4239953570
  • https://openalex.org/W4247941544
  • https://openalex.org/W4252684946
  • https://openalex.org/W962445588
  • https://openalex.org/W96503111