Published July 22, 2022 | Version v1
Publication Open

Identification of the ubiquitin–proteasome pathway domain by hyperparameter optimization based on a 2D convolutional neural network

  • 1. Xidian University
  • 2. Mahidol University
  • 3. Sindh Agriculture University
  • 4. Taif University
  • 5. Buraydah Colleges
  • 6. Qassim University

Description

The major mechanism of proteolysis in the cytosol and nucleus is the ubiquitin-proteasome pathway (UPP). The highly controlled UPP has an effect on a wide range of cellular processes and substrates, and flaws in the system can lead to the pathogenesis of a number of serious human diseases. Knowledge about UPPs provide useful hints to understand the cellular process and drug discovery. The exponential growth in next-generation sequencing wet lab approaches have accelerated the accumulation of unannotated data in online databases, making the UPP characterization/analysis task more challenging. Thus, computational methods are used as an alternative for fast and accurate identification of UPPs. Aiming this, we develop a novel deep learning-based predictor named "2DCNN-UPP" for identifying UPPs with low error rate. In the proposed method, we used proposed algorithm with a two-dimensional convolutional neural network with dipeptide deviation features. To avoid the over fitting problem, genetic algorithm is employed to select the optimal features. Finally, the optimized attribute set are fed as input to the 2D-CNN learning engine for building the model. Empirical evidence or outcomes demonstrates that the proposed predictor achieved an overall accuracy and AUC (ROC) value using 10-fold cross validation test. Superior performance compared to other state-of-the art methods for discrimination the relations UPPs classification. Both on and independent test respectively was trained on 10-fold cross validation method and then evaluated through independent test. In the case where experimentally validated ubiquitination sites emerged, we must devise a proteomics-based predictor of ubiquitination. Meanwhile, we also evaluated the generalization power of our trained modal via independent test, and obtained remarkable performance in term of 0.862 accuracy, 0.921 sensitivity, 0.803 specificity 0.803, and 0.730 Matthews correlation coefficient (MCC) respectively. Four approaches were used in the sequences, and the physical properties were calculated combined. When used a 10-fold cross-validation, 2D-CNN-UPP obtained an AUC (ROC) value of 0.862 predicted score. We analyzed the relationship between UPP protein and non-UPP protein predicted score. Last but not least, this research could effectively analyze the large scale relationship between UPP proteins and non-UPP proteins in particular and other protein problems in general and our research work might improve computational biological research. Therefore, we could utilize the latest features in our model framework and Dipeptide Deviation from Expected Mean (DDE) -based protein structure features for the prediction of protein structure, functions, and different molecules, such as DNA and RNA.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الآلية الرئيسية لتحلل البروتين في الخلية والنواة هي مسار بروتيزوم اليوبيكويتين (UPP). يؤثر UPP شديد التحكم على مجموعة واسعة من العمليات الخلوية والركائز، ويمكن أن تؤدي العيوب في النظام إلى التسبب في عدد من الأمراض البشرية الخطيرة. توفر المعرفة حول UPPs تلميحات مفيدة لفهم العملية الخلوية واكتشاف الدواء. أدى النمو الهائل في الجيل التالي من مناهج المختبرات الرطبة إلى تسريع تراكم البيانات غير المشروحة في قواعد البيانات عبر الإنترنت، مما جعل مهمة توصيف/تحليل UPP أكثر صعوبة. وبالتالي، يتم استخدام الطرق الحسابية كبديل للتحديد السريع والدقيق لـ UPPs. بهدف تحقيق ذلك، نطور مؤشرًا جديدًا قائمًا على التعلم العميق يسمى "2DCNN - UPP" لتحديد UPPs ذات معدل الخطأ المنخفض. في الطريقة المقترحة، استخدمنا خوارزمية مقترحة مع شبكة عصبية التفافية ثنائية الأبعاد مع ميزات انحراف ثنائي الببتيد. لتجنب مشكلة الإفراط في التركيب، يتم استخدام الخوارزمية الجينية لتحديد الميزات المثلى. أخيرًا، يتم تغذية مجموعة السمات المحسنة كمدخل لمحرك التعلم 2D - CNN لبناء النموذج. توضح الأدلة أو النتائج التجريبية أن المتنبئ المقترح حقق دقة شاملة وقيمة AUC (ROC) باستخدام اختبار التحقق المتبادل 10 أضعاف. أداء متفوق مقارنة بالطرق الحديثة الأخرى للتمييز في تصنيف العلاقات. تم تدريب كل من اختبار ON والاختبار المستقل على التوالي على طريقة التحقق المتبادل المكونة من 10 أضعاف ثم تم تقييمها من خلال اختبار مستقل. في حالة ظهور مواقع انتشار تم التحقق منها تجريبيًا، يجب علينا ابتكار مؤشر قائم على البروتينات للتواجد في كل مكان. وفي الوقت نفسه، قمنا أيضًا بتقييم قوة التعميم لشكلنا المدرب من خلال اختبار مستقل، وحصلنا على أداء رائع من حيث الدقة 0.862، والحساسية 0.921، والنوعية 0.803 0.803، و 0.730 معامل ارتباط ماثيوز (MCC) على التوالي. تم استخدام أربعة مناهج في التسلسلات، وتم حساب الخصائص الفيزيائية مجتمعة. عند استخدام التحقق المتبادل 10 أضعاف، حصلت 2D - CNN - UPP على قيمة AUC (ROC) بقيمة 0.862 درجة متوقعة. قمنا بتحليل العلاقة بين البروتين UPP والبروتين غير UPP المتوقع. أخيرًا وليس آخرًا، يمكن لهذا البحث أن يحلل بشكل فعال العلاقة واسعة النطاق بين بروتينات UPP والبروتينات غير UPP على وجه الخصوص ومشاكل البروتين الأخرى بشكل عام، وقد يؤدي عملنا البحثي إلى تحسين البحث البيولوجي الحسابي. لذلك، يمكننا الاستفادة من أحدث الميزات في إطار نموذجنا وميزات بنية البروتين القائمة على انحراف ثنائي الببتيد عن المتوسط المتوقع (DDE) للتنبؤ ببنية البروتين ووظائفه وجزيئاته المختلفة، مثل الحمض النووي DNA والحمض النووي الريبي RNA.

Translated Description (French)

Le principal mécanisme de protéolyse dans le cytosol et le noyau est la voie ubiquitine-protéasome (UPP). La PPU hautement contrôlée a un effet sur un large éventail de processus cellulaires et de substrats, et des failles dans le système peuvent conduire à la pathogenèse d'un certain nombre de maladies humaines graves. Les connaissances sur les PPU fournissent des conseils utiles pour comprendre le processus cellulaire et la découverte de médicaments. La croissance exponentielle des approches de laboratoire humide de séquençage de nouvelle génération a accéléré l'accumulation de données non annotées dans les bases de données en ligne, rendant la tâche de caractérisation/analyse UPP plus difficile. Ainsi, les méthodes de calcul sont utilisées comme une alternative pour une identification rapide et précise des UPP. Dans ce but, nous développons un nouveau prédicteur basé sur l'apprentissage profond appelé « 2DCNN-UPP » pour identifier les PPU à faible taux d'erreur. Dans la méthode proposée, nous avons utilisé l'algorithme proposé avec un réseau neuronal convolutionnel bidimensionnel avec des caractéristiques de déviation dipeptidique. Pour éviter le problème de surajustement, un algorithme génétique est utilisé pour sélectionner les caractéristiques optimales. Enfin, l'ensemble d'attributs optimisé est alimenté en entrée du moteur d'apprentissage 2D-CNN pour la construction du modèle. Les preuves empiriques ou les résultats démontrent que le prédicteur proposé a atteint une précision globale et une valeur d'ASC (roc) en utilisant un test de validation croisée de 10 fois. Performances supérieures par rapport à d'autres méthodes de pointe pour la discrimination de la classification des relations UPPS. Le test on et le test indépendant respectivement ont été formés à la méthode de validation croisée 10 fois, puis évalués par un test indépendant. Dans le cas où des sites d'ubiquitination validés expérimentalement ont émergé, nous devons concevoir un prédicteur d'ubiquitination basé sur la protéomique. Pendant ce temps, nous avons également évalué la puissance de généralisation de notre modal entraîné via un test indépendant, et obtenu des performances remarquables en termes de précision 0,862, de sensibilité 0,921, de spécificité 0,803, 0,803 et de coefficient de corrélation de Matthews (MCC) 0,730 respectivement. Quatre approches ont été utilisées dans les séquences, et les propriétés physiques ont été calculées combinées. Lorsqu'il est utilisé une validation croisée de 10 fois, 2D-CNN-UPP a obtenu une valeur d'ASC (roc) de 0,862 score prédit. Nous avons analysé la relation entre la protéine UPP et le score prédit par la protéine non-UPP. Last but not least, cette recherche pourrait effectivement analyser la relation à grande échelle entre les protéines UPP et les protéines non-UPP en particulier et d'autres problèmes de protéines en général et nos travaux de recherche pourraient améliorer la recherche biologique computationnelle. Par conséquent, nous pourrions utiliser les dernières caractéristiques de notre cadre de modèle et les caractéristiques de la structure des protéines basées sur l'écart dipeptidique par rapport à la moyenne attendue (DDE) pour prédire la structure, les fonctions et les différentes molécules des protéines, telles que l'ADN et l'ARN.

Translated Description (Spanish)

El principal mecanismo de proteólisis en el citosol y el núcleo es la vía ubiquitina-proteasoma (UPP). La UPP altamente controlada tiene un efecto sobre una amplia gama de procesos y sustratos celulares, y las fallas en el sistema pueden conducir a la patogénesis de una serie de enfermedades humanas graves. El conocimiento sobre las UPP proporciona consejos útiles para comprender el proceso celular y el descubrimiento de fármacos. El crecimiento exponencial en los enfoques de laboratorio húmedo de secuenciación de próxima generación ha acelerado la acumulación de datos no anotados en bases de datos en línea, lo que hace que la tarea de caracterización/análisis de UPP sea más desafiante. Por lo tanto, los métodos computacionales se utilizan como una alternativa para la identificación rápida y precisa de las UPP. Con este objetivo, desarrollamos un nuevo predictor basado en el aprendizaje profundo llamado "2DCNN-UPP" para identificar UPP con baja tasa de error. En el método propuesto, utilizamos el algoritmo propuesto con una red neuronal convolucional bidimensional con características de desviación de dipéptidos. Para evitar el problema del ajuste excesivo, se emplea un algoritmo genético para seleccionar las características óptimas. Finalmente, el conjunto de atributos optimizado se alimenta como entrada al motor de aprendizaje 2D-CNN para construir el modelo. La evidencia empírica o los resultados demuestran que el predictor propuesto logró una precisión general y un valor de AUC (Roc) utilizando una prueba de validación cruzada de 10 veces. Rendimiento superior en comparación con otros métodos de última generación para la discriminación de las relaciones clasificación UPPS. Tanto en la prueba como en la prueba independiente, respectivamente, se entrenó en el método de validación cruzada de 10 veces y luego se evaluó a través de una prueba independiente. En el caso de que surgieran sitios de ubiquitinación validados experimentalmente, debemos idear un predictor de ubiquitinación basado en la proteómica. Mientras tanto, también evaluamos el poder de generalización de nuestro modal entrenado a través de una prueba independiente y obtuvimos un rendimiento notable en términos de precisión de 0.862, sensibilidad de 0.921, especificidad de 0.803 y coeficiente de correlación de Matthews (MCC) de 0.730, respectivamente. Se utilizaron cuatro enfoques en las secuencias y se calcularon las propiedades físicas combinadas. Cuando se usó una validación cruzada de 10 veces, 2D-CNN-UPP obtuvo un valor de AUC (Roc) de 0.862 de puntuación prevista. Analizamos la relación entre la puntuación prevista de la proteína UPP y la proteína no UPP. Por último, pero no menos importante, esta investigación podría analizar de manera efectiva la relación a gran escala entre las proteínas UPP y las proteínas no UPP en particular y otros problemas de proteínas en general, y nuestro trabajo de investigación podría mejorar la investigación biológica computacional. Por lo tanto, podríamos utilizar las últimas características de nuestro marco modelo y las características de la estructura de proteínas basadas en la desviación de dipéptidos de la media esperada (DDE) para la predicción de la estructura, las funciones y las diferentes moléculas de proteínas, como el ADN y el ARN.

Files

pdf.pdf

Files (3.6 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:3ff7eb2e20df81cae64439a5c3851e99
3.6 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تحديد مجال مسار بروتيزوم اليوبيكويتين عن طريق تحسين المعلمة المفرطة بناءً على شبكة عصبية التفافية ثنائية الأبعاد
Translated title (French)
Identification du domaine de la voie ubiquitine-protéasome par optimisation hyperparamétrique basée sur un réseau de neurones convolutionnels 2D
Translated title (Spanish)
Identificación del dominio de la vía ubiquitina-proteasoma mediante optimización de hiperparámetros basada en una red neuronal convolucional 2D

Identifiers

Other
https://openalex.org/W4286685574
DOI
10.3389/fgene.2022.851688

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W113231398
  • https://openalex.org/W1618846043
  • https://openalex.org/W1901920202
  • https://openalex.org/W1979408355
  • https://openalex.org/W1991634033
  • https://openalex.org/W1999212541
  • https://openalex.org/W2003204068
  • https://openalex.org/W2005522614
  • https://openalex.org/W2006862211
  • https://openalex.org/W2015291446
  • https://openalex.org/W2029093937
  • https://openalex.org/W2034261400
  • https://openalex.org/W2043338013
  • https://openalex.org/W2053502852
  • https://openalex.org/W2056775476
  • https://openalex.org/W2086831875
  • https://openalex.org/W2089865526
  • https://openalex.org/W2097606916
  • https://openalex.org/W2107903949
  • https://openalex.org/W2120670171
  • https://openalex.org/W2145786566
  • https://openalex.org/W2147863530
  • https://openalex.org/W2156822612
  • https://openalex.org/W2188183693
  • https://openalex.org/W2289712442
  • https://openalex.org/W2340573941
  • https://openalex.org/W2558585189
  • https://openalex.org/W2577238056
  • https://openalex.org/W2586179392
  • https://openalex.org/W2588229031
  • https://openalex.org/W2604272474
  • https://openalex.org/W2776226394
  • https://openalex.org/W2792063098
  • https://openalex.org/W2796391117
  • https://openalex.org/W2797060233
  • https://openalex.org/W2809254203
  • https://openalex.org/W2889717020
  • https://openalex.org/W2911282375
  • https://openalex.org/W2917557027
  • https://openalex.org/W2919709896
  • https://openalex.org/W2931503046
  • https://openalex.org/W2946297791
  • https://openalex.org/W2968785127
  • https://openalex.org/W2989395196
  • https://openalex.org/W3001125339
  • https://openalex.org/W3090543969
  • https://openalex.org/W3129130955
  • https://openalex.org/W60686164