Published August 17, 2016 | Version v1
Publication Open

A machine learning strategy for predicting localization of post-translational modification sites in protein-protein interacting regions

Description

One very important functional domain of proteins is the protein-protein interacting region (PPIR), which forms the binding interface between interacting polypeptide chains. Post-translational modifications (PTMs) that occur in the PPIR can either interfere with or facilitate the interaction between proteins. The ability to predict whether sites of protein modifications are inside or outside of PPIRs would be useful in further elucidating the regulatory mechanisms by which modifications of specific proteins regulate their cellular functions.Using two of the comprehensive databases for protein-protein interaction and protein modification site data (PDB and PhosphoSitePlus, respectively), we created new databases that map PTMs to their locations inside or outside of PPIRs. The mapped PTMs represented only 5 % of all known PTMs. Thus, in order to predict localization within or outside of PPIRs for the vast majority of PTMs, a machine learning strategy was used to generate predictive models from these mapped databases. For the three mapped PTM databases which had sufficient numbers of modification sites for generating models (acetylation, phosphorylation, and ubiquitylation), the resulting models yielded high overall predictive performance as judged by a combined performance score (CPS). Among the multiple properties of amino acids that were used in the classification tasks, hydrophobicity was found to contribute substantially to the performance of the final predictive models. Compared to the other classifiers we also evaluated, the SVM provided the best performance overall.These models are the first to predict whether PTMs are located inside or outside of PPIRs, as demonstrated by their high predictive performance. The models and data presented here should be useful in prioritizing both known and newly identified PTMs for further studies to determine the functional relationship between specific PTMs and protein-protein interactions. The implemented R package is available online ( http://sysbio.chula.ac.th/PtmPPIR ).

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

أحد المجالات الوظيفية المهمة للغاية للبروتينات هو المنطقة المتفاعلة بين البروتين والبروتين (PPIR)، والتي تشكل واجهة الربط بين سلاسل عديد الببتيد المتفاعلة. يمكن أن تتداخل تعديلات ما بعد الترجمة (PTMs) التي تحدث في PPIR مع التفاعل بين البروتينات أو تسهله. ستكون القدرة على التنبؤ بما إذا كانت مواقع تعديلات البروتين داخل أو خارج PPIRs مفيدة في زيادة توضيح الآليات التنظيمية التي تنظم بها تعديلات بروتينات محددة وظائفها الخلوية. باستخدام قاعدتي بيانات شاملتين لتفاعل البروتين مع البروتين وبيانات موقع تعديل البروتين (PDB و PhosphoSitePlus، على التوالي)، أنشأنا قواعد بيانات جديدة تحدد PTMs إلى مواقعها داخل أو خارج PPIRs. تمثل PTMs التي تم تعيينها 5 ٪ فقط من جميع PTMs المعروفة. وبالتالي، من أجل التنبؤ بالتوطين داخل أو خارج PPIRs للغالبية العظمى من PTMs، تم استخدام استراتيجية التعلم الآلي لإنشاء نماذج تنبؤية من قواعد البيانات المعينة هذه. بالنسبة لقواعد بيانات PTM الثلاثة التي تم تعيينها والتي تحتوي على أعداد كافية من مواقع التعديل لتوليد النماذج (الأسيتيل، والفسفرة، والانتشار في كل مكان)، أسفرت النماذج الناتجة عن أداء تنبؤي عام مرتفع كما يتم الحكم عليه من خلال درجة الأداء المجمعة (CPS). من بين الخصائص المتعددة للأحماض الأمينية التي تم استخدامها في مهام التصنيف، وجد أن كراهية الماء تساهم بشكل كبير في أداء النماذج التنبؤية النهائية. بالمقارنة مع المصنفات الأخرى التي قمنا بتقييمها أيضًا، قدمت SVM أفضل أداء بشكل عام. هذه النماذج هي الأولى التي تتنبأ بما إذا كانت PTMs موجودة داخل أو خارج PPIRs، كما يتضح من أدائها التنبئي العالي. يجب أن تكون النماذج والبيانات المقدمة هنا مفيدة في تحديد أولويات كل من PTMs المعروفة والمحددة حديثًا لمزيد من الدراسات لتحديد العلاقة الوظيفية بين PTMs المحددة وتفاعلات البروتين والبروتين. حزمة R المنفذة متاحة عبر الإنترنت ( http://sysbio.chula.ac.th/PtmPPIR ).

Translated Description (French)

Un domaine fonctionnel très important des protéines est la région d'interaction protéine-protéine (PPIR), qui forme l'interface de liaison entre les chaînes polypeptidiques en interaction. Les modifications post-traductionnelles (PTM) qui se produisent dans le PPIR peuvent interférer avec ou faciliter l'interaction entre les protéines. La capacité de prédire si les sites de modifications protéiques sont à l'intérieur ou à l'extérieur des PPIR serait utile pour élucider davantage les mécanismes de régulation par lesquels les modifications de protéines spécifiques régulent leurs fonctions cellulaires. En utilisant deux des bases de données complètes pour les données sur les sites d'interaction protéine-protéine et de modification des protéines (PDB et PhosphoSitePlus, respectivement), nous avons créé de nouvelles bases de données qui mappent les PTM à leurs emplacements à l'intérieur ou à l'extérieur des PPIR. Les PTM cartographiés ne représentaient que 5 % de tous les PTM connus. Ainsi, afin de prédire la localisation à l'intérieur ou à l'extérieur des PPIR pour la grande majorité des PTM, une stratégie d'apprentissage automatique a été utilisée pour générer des modèles prédictifs à partir de ces bases de données cartographiées. Pour les trois bases de données PTM cartographiées qui avaient un nombre suffisant de sites de modification pour générer des modèles (acétylation, phosphorylation et ubiquitylation), les modèles résultants ont donné une performance prédictive globale élevée, évaluée par un score de performance combiné (CPS). Parmi les multiples propriétés des acides aminés qui ont été utilisées dans les tâches de classification, l'hydrophobicité a contribué de manière substantielle à la performance des modèles prédictifs finaux. Par rapport aux autres classificateurs que nous avons également évalués, le SVM a fourni la meilleure performance globale. Ces modèles sont les premiers à prédire si les PTM sont situés à l'intérieur ou à l'extérieur des PPIR, comme le démontre leur haute performance prédictive. Les modèles et les données présentés ici devraient être utiles pour hiérarchiser les PTM connus et nouvellement identifiés en vue d'études ultérieures visant à déterminer la relation fonctionnelle entre les PTM spécifiques et les interactions protéine-protéine. Le package R mis en œuvre est disponible en ligne ( http://sysbio.chula.ac.th/PtmPPIR ).

Translated Description (Spanish)

Un dominio funcional muy importante de las proteínas es la región de interacción proteína-proteína (PPIR), que forma la interfaz de unión entre las cadenas polipeptídicas que interactúan. Las modificaciones postraduccionales (MPT) que se producen en el PPIR pueden interferir o facilitar la interacción entre las proteínas. La capacidad de predecir si los sitios de modificación de proteínas están dentro o fuera de los PPIR sería útil para dilucidar aún más los mecanismos reguladores por los cuales las modificaciones de proteínas específicas regulan sus funciones celulares. Utilizando dos de las bases de datos integrales para la interacción proteína-proteína y los datos del sitio de modificación de proteínas (PDB y PhosphoSitePlus, respectivamente), creamos nuevas bases de datos que mapean las PTM a sus ubicaciones dentro o fuera de los PPIR. Las MPT mapeadas representaron solo el 5 % de todas las MPT conocidas. Por lo tanto, para predecir la localización dentro o fuera de los PPIR para la gran mayoría de los PTM, se utilizó una estrategia de aprendizaje automático para generar modelos predictivos a partir de estas bases de datos mapeadas. Para las tres bases de datos de PTM mapeadas que tenían un número suficiente de sitios de modificación para generar modelos (acetilación, fosforilación y ubiquitilación), los modelos resultantes produjeron un alto rendimiento predictivo general a juzgar por una puntuación de rendimiento combinada (CPS). Entre las múltiples propiedades de los aminoácidos que se utilizaron en las tareas de clasificación, se encontró que la hidrofobicidad contribuye sustancialmente al rendimiento de los modelos predictivos finales. En comparación con los otros clasificadores que también evaluamos, el SVM proporcionó el mejor rendimiento general. Estos modelos son los primeros en predecir si los PTM se encuentran dentro o fuera de los PPIR, como lo demuestra su alto rendimiento predictivo. Los modelos y datos presentados aquí deberían ser útiles para priorizar las PTM conocidas y recién identificadas para estudios adicionales para determinar la relación funcional entre las PTM específicas y las interacciones proteína-proteína. El paquete R implementado está disponible en línea ( http://sysbio.chula.ac.th/PtmPPIR ).

Files

s12859-016-1165-8.pdf

Files (1.9 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:fb85b05b1fd11fb237e7a126eb9d4d0b
1.9 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
استراتيجية التعلم الآلي للتنبؤ بتوطين مواقع التعديل ما بعد الترجمة في المناطق المتفاعلة بين البروتين والبروتين
Translated title (French)
Une stratégie d'apprentissage automatique pour prédire la localisation des sites de modification post-traductionnelle dans les régions d'interaction protéine-protéine
Translated title (Spanish)
Una estrategia de aprendizaje automático para predecir la localización de sitios de modificación postraduccional en regiones de interacción proteína-proteína

Identifiers

Other
https://openalex.org/W2518156938
DOI
10.1186/s12859-016-1165-8

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W1808644423
  • https://openalex.org/W1941659294
  • https://openalex.org/W1966041739
  • https://openalex.org/W1975092906
  • https://openalex.org/W1975304761
  • https://openalex.org/W1991199546
  • https://openalex.org/W1995286508
  • https://openalex.org/W1999284727
  • https://openalex.org/W2000042427
  • https://openalex.org/W2001922182
  • https://openalex.org/W2002832354
  • https://openalex.org/W2005750609
  • https://openalex.org/W2010516785
  • https://openalex.org/W2013853442
  • https://openalex.org/W2028584098
  • https://openalex.org/W2031167046
  • https://openalex.org/W2043274355
  • https://openalex.org/W2043338013
  • https://openalex.org/W2052173279
  • https://openalex.org/W2055364720
  • https://openalex.org/W2057616220
  • https://openalex.org/W2068618715
  • https://openalex.org/W2075319133
  • https://openalex.org/W2079056345
  • https://openalex.org/W2080600617
  • https://openalex.org/W2081125504
  • https://openalex.org/W2101362041
  • https://openalex.org/W2103495854
  • https://openalex.org/W2103525038
  • https://openalex.org/W2103552916
  • https://openalex.org/W2106413110
  • https://openalex.org/W2108067304
  • https://openalex.org/W2108608186
  • https://openalex.org/W2109300715
  • https://openalex.org/W2111547563
  • https://openalex.org/W2128965734
  • https://openalex.org/W2132886902
  • https://openalex.org/W2135893370
  • https://openalex.org/W2149308034
  • https://openalex.org/W2158577092
  • https://openalex.org/W2159959024
  • https://openalex.org/W2162259397
  • https://openalex.org/W2164260969
  • https://openalex.org/W2279242971
  • https://openalex.org/W2544883878
  • https://openalex.org/W2605068739
  • https://openalex.org/W4247663525
  • https://openalex.org/W4380558572
  • https://openalex.org/W49700977