Setting up a large set of protein-ligand PDB complexes for the development and validation of knowledge-based docking algorithms
- 1. University of Information Science
- 2. Center of Molecular Immunology (Cuba)
Description
The number of algorithms available to predict ligand-protein interactions is large and ever-increasing. The number of test cases used to validate these methods is usually small and problem dependent. Recently, several databases have been released for further understanding of protein-ligand interactions, having the Protein Data Bank as backend support. Nevertheless, it appears to be difficult to test docking methods on a large variety of complexes. In this paper we report the development of a new database of protein-ligand complexes tailored for testing of docking algorithms.Using a new definition of molecular contact, small ligands contained in the 2005 PDB edition were identified and processed. The database was enriched in molecular properties. In particular, an automated typing of ligand atoms was performed. A filtering procedure was applied to select a non-redundant dataset of complexes. Data mining was performed to obtain information on the frequencies of different types of atomic contacts. Docking simulations were run with the program DOCK.We compiled a large database of small ligand-protein complexes, enriched with different calculated properties, that currently contains more than 6000 non-redundant structures. As an example to demonstrate the value of the new database, we derived a new set of chemical matching rules to be used in the context of the program DOCK, based on contact frequencies between ligand atoms and points representing the protein surface, and proved their enhanced efficiency with respect to the default set of rules included in that program.The new database constitutes a valuable resource for the development of knowledge-based docking algorithms and for testing docking programs on large sets of protein-ligand complexes. The new chemical matching rules proposed in this work significantly increase the success rate in DOCKing simulations. The database developed in this work is available at http://cimlcsext.cim.sld.cu:8080/screeningbrowser/.
Translated Descriptions
Translated Description (Arabic)
عدد الخوارزميات المتاحة للتنبؤ بتفاعلات البروتين الرابط كبير ومتزايد باستمرار. عادة ما يكون عدد حالات الاختبار المستخدمة للتحقق من صحة هذه الطرق صغيرًا ويعتمد على المشكلة. في الآونة الأخيرة، تم إصدار العديد من قواعد البيانات لمزيد من الفهم لتفاعلات البروتين والروابط، مع وجود بنك بيانات البروتين كدعم خلفي. ومع ذلك، يبدو أنه من الصعب اختبار طرق الالتحام على مجموعة كبيرة ومتنوعة من المجمعات. في هذه الورقة، نبلغ عن تطوير قاعدة بيانات جديدة لمجمعات البروتين والليغاند المصممة خصيصًا لاختبار خوارزميات الالتحام. باستخدام تعريف جديد للاتصال الجزيئي، تم تحديد الروابط الصغيرة الواردة في إصدار PDB لعام 2005 ومعالجتها. تم إثراء قاعدة البيانات بالخصائص الجزيئية. على وجه الخصوص، تم إجراء كتابة آلية لذرات الترابط. تم تطبيق إجراء تصفية لتحديد مجموعة بيانات غير زائدة من المجمعات. تم إجراء استخراج البيانات للحصول على معلومات حول ترددات الأنواع المختلفة من الملامسات الذرية. تم تشغيل عمليات محاكاة الالتحام باستخدام برنامج DOCK. قمنا بتجميع قاعدة بيانات كبيرة من مجمعات البروتين الربيطي الصغيرة، المخصبة بخصائص محسوبة مختلفة، والتي تحتوي حاليًا على أكثر من 6000 بنية غير زائدة عن الحاجة. وكمثال لإثبات قيمة قاعدة البيانات الجديدة، استنبطنا مجموعة جديدة من قواعد المطابقة الكيميائية لاستخدامها في سياق رصيف البرنامج، بناءً على ترددات التلامس بين ذرات الترابط والنقاط التي تمثل سطح البروتين، وأثبتنا كفاءتها المعززة فيما يتعلق بالمجموعة الافتراضية من القواعد المدرجة في ذلك البرنامج. تشكل قاعدة البيانات الجديدة موردًا قيمًا لتطوير خوارزميات الإرساء القائمة على المعرفة ولاختبار برامج الإرساء على مجموعات كبيرة من معقدات البروتين- الترابط. تزيد قواعد المطابقة الكيميائية الجديدة المقترحة في هذا العمل بشكل كبير من معدل النجاح في محاكاة DOCKING. قاعدة البيانات التي تم تطويرها في هذا العمل متاحة على http://cimlcsext.cim.sld.cu:8080/screeningbrowser/.Translated Description (French)
Le nombre d'algorithmes disponibles pour prédire les interactions ligand-protéine est important et toujours croissant. Le nombre de cas de test utilisés pour valider ces méthodes est généralement faible et dépend du problème. Récemment, plusieurs bases de données ont été publiées pour mieux comprendre les interactions protéine-ligand, avec la Banque de données sur les protéines comme support principal. Néanmoins, il semble difficile de tester les méthodes d'amarrage sur une grande variété de complexes. Dans cet article, nous rapportons le développement d'une nouvelle base de données de complexes protéine-ligand adaptés pour tester les algorithmes d'amarrage. En utilisant une nouvelle définition du contact moléculaire, de petits ligands contenus dans l'édition 2005 de l'APB ont été identifiés et traités. La base de données a été enrichie en propriétés moléculaires. En particulier, un typage automatisé des atomes de ligand a été effectué. Une procédure de filtrage a été appliquée pour sélectionner un ensemble de données non redondant de complexes. L'exploration de données a été effectuée pour obtenir des informations sur les fréquences des différents types de contacts atomiques. Des simulations d'amarrage ont été exécutées avec le programme DOCK.Nous avons compilé une grande base de données de petits complexes ligand-protéine, enrichie de différentes propriétés calculées, qui contient actuellement plus de 6000 structures non redondantes. À titre d'exemple pour démontrer la valeur de la nouvelle base de données, nous avons dérivé un nouvel ensemble de règles d'appariement chimique à utiliser dans le contexte du DOCK du programme, basé sur les fréquences de contact entre les atomes de ligand et les points représentant la surface de la protéine, et prouvé leur efficacité accrue par rapport à l'ensemble de règles par défaut inclus dans ce programme. La nouvelle base de données constitue une ressource précieuse pour le développement d'algorithmes d'amarrage basés sur la connaissance et pour tester des programmes d'amarrage sur de grands ensembles de complexes protéine-ligand. Les nouvelles règles d'appariement chimique proposées dans ce travail augmentent considérablement le taux de réussite dans les simulations DOCKing. La base de données développée dans ce travail est disponible sur http://cimlcsext.cim.sld.cu :8080/screeningbrowser/.Translated Description (Spanish)
El número de algoritmos disponibles para predecir las interacciones ligando-proteína es grande y cada vez mayor. El número de casos de prueba utilizados para validar estos métodos suele ser pequeño y depende del problema. Recientemente, se han publicado varias bases de datos para una mayor comprensión de las interacciones proteína-ligando, teniendo el Protein Data Bank como soporte de backend. Sin embargo, parece ser difícil probar los métodos de acoplamiento en una gran variedad de complejos. En este artículo informamos sobre el desarrollo de una nueva base de datos de complejos proteína-ligando adaptados para probar algoritmos de acoplamiento. Utilizando una nueva definición de contacto molecular, se identificaron y procesaron pequeños ligandos contenidos en la edición 2005 de PDB. La base de datos se enriqueció en propiedades moleculares. En particular, se realizó una tipificación automatizada de átomos de ligando. Se aplicó un procedimiento de filtrado para seleccionar un conjunto de datos no redundante de complejos. Se realizó minería de datos para obtener información sobre las frecuencias de diferentes tipos de contactos atómicos. Las simulaciones de acoplamiento se realizaron con el programa DOCK.Compilamos una gran base de datos de pequeños complejos ligando-proteína, enriquecidos con diferentes propiedades calculadas, que actualmente contiene más de 6000 estructuras no redundantes. Como ejemplo para demostrar el valor de la nueva base de datos, derivamos un nuevo conjunto de reglas de coincidencia química que se utilizarán en el contexto del programa DOCK, basadas en las frecuencias de contacto entre los átomos del ligando y los puntos que representan la superficie de la proteína, y demostramos su mayor eficiencia con respecto al conjunto predeterminado de reglas incluidas en ese programa. La nueva base de datos constituye un recurso valioso para el desarrollo de algoritmos de acoplamiento basados en el conocimiento y para probar programas de acoplamiento en grandes conjuntos de complejos proteína-ligando. Las nuevas reglas de coincidencia química propuestas en este trabajo aumentan significativamente la tasa de éxito en las simulaciones DOCKing. La base de datos desarrollada en este trabajo está disponible en http://cimlcsext.cim.sld.cu:8080/screeningbrowser/.Files
1471-2105-8-310.pdf
Files
(1.4 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:606948601c476966382601e5ed0abd94
|
1.4 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- إعداد مجموعة كبيرة من مجمعات PDB للبروتين والرطل لتطوير خوارزميات الإرساء القائمة على المعرفة والتحقق من صحتها
- Translated title (French)
- Mise en place d'un large ensemble de complexes PDB protéine-ligand pour le développement et la validation d'algorithmes d'amarrage basés sur la connaissance
- Translated title (Spanish)
- Configuración de un gran conjunto de complejos PDB proteína-ligando para el desarrollo y validación de algoritmos de acoplamiento basados en el conocimiento
Identifiers
- Other
- https://openalex.org/W2053114532
- DOI
- 10.1186/1471-2105-8-310
References
- https://openalex.org/W1592950931
- https://openalex.org/W1979046104
- https://openalex.org/W1979914800
- https://openalex.org/W1981254997
- https://openalex.org/W1986568494
- https://openalex.org/W1994250273
- https://openalex.org/W2010233441
- https://openalex.org/W2027640169
- https://openalex.org/W2049126012
- https://openalex.org/W2050456292
- https://openalex.org/W2055989425
- https://openalex.org/W2067455153
- https://openalex.org/W2075986011
- https://openalex.org/W2078653892
- https://openalex.org/W2079391392
- https://openalex.org/W2103300124
- https://openalex.org/W2106353455
- https://openalex.org/W2108508060
- https://openalex.org/W2110120447
- https://openalex.org/W2117319571
- https://openalex.org/W2120138074
- https://openalex.org/W2124850224
- https://openalex.org/W2130479394
- https://openalex.org/W2143567718
- https://openalex.org/W2151550848
- https://openalex.org/W2152964937
- https://openalex.org/W2169087593
- https://openalex.org/W2170088433
- https://openalex.org/W2949504121
- https://openalex.org/W4256271808