Identifying Neuropeptides via Evolutionary and Sequential Based Multi-Perspective Descriptors by Incorporation With Ensemble Classification Strategy
Creators
- 1. Abdul Wali Khan University Mardan
- 2. University of Engineering and Technology Peshawar
- 3. International Islamic University, Islamabad
- 4. University of Science and Technology Bannu
- 5. Al Ain University of Science and Technology
- 6. Princess Nourah bint Abdulrahman University
Description
Neuropeptides (NPs) are a kind of neuromodulator/ neurotransmitter that works as signaling molecules in the central nervous system, and perform major roles in physiological and hormone regulation activities. Recently, machine learning-based therapeutic agents have gained the attention of researchers due to their high and reliable prediction results. However, the unsatisfactory performance of the existing predictors is due to their high execution cost and minimum predictive results. Therefore, the development of a reliable prediction is highly indispensable for scientists to effectively predict NPs. In this study, we presented an automatic and computationally effective model for identifying of NPs. The evolutionary information is formulated using a bigram position-specific scoring matrix (Bi-PSSM) and K-spaced bigram (KSB). Moreover, for noise reduction, a discrete wavelet transform (DWT) is utilized to form Bi-PSSM_DWT and KSB_DWT based high discriminative vectors. In addition, one-hot encoding is also employed to collect sequential features from peptide samples. Finally, a multi-perspective feature set of sequential and embedded evolutionary information is formed. The optimum features are chosen from the extracted features via Shapley Additive exPlanations (SHAP) by evaluating the contribution of the extracted features. The optimal features are trained via six classification models i.e., XGB, ETC, SVM, ADA, FKNN, and LGBM. The predicted labels of these learners are then provided to a genetic algorithm to form an ensemble classification approach. Hence, our model achieved a higher predictive accuracy of 94.47% and 92.55% using training sequences and independent sequences, respectively. Which is $\sim $ 3% highest predictive accuracy than present methods. It is suggested that our presented tool will be beneficial and may execute a substantial role in drug development and research academia. The source code and all datasets are publicly available at https://github.com/shahidawkum/Target-ensC_NP .
Translated Descriptions
Translated Description (Arabic)
الببتيدات العصبية (NPs) هي نوع من المغير العصبي/ الناقل العصبي الذي يعمل كجزيئات إرسال الإشارات في الجهاز العصبي المركزي، ويؤدي أدوارًا رئيسية في أنشطة التنظيم الفسيولوجي والهرموني. في الآونة الأخيرة، اكتسبت العوامل العلاجية القائمة على التعلم الآلي اهتمام الباحثين بسبب نتائج التنبؤ العالية والموثوقة. ومع ذلك، فإن الأداء غير المرضي للمتنبئين الحاليين يرجع إلى ارتفاع تكلفة التنفيذ والحد الأدنى من النتائج التنبؤية. لذلك، فإن تطوير تنبؤ موثوق به أمر لا غنى عنه للغاية للعلماء للتنبؤ بشكل فعال بالجسيمات النانوية. في هذه الدراسة، قدمنا نموذجًا آليًا وفعالًا من الناحية الحسابية لتحديد NPs. تتم صياغة المعلومات التطورية باستخدام مصفوفة تسجيل خاصة بموضع بيغرام (Bi - PSSM) وبيغرام متباعد K (KSB). علاوة على ذلك، للحد من الضوضاء، يتم استخدام تحويل المويجة المنفصلة (DWT) لتشكيل متجهات ثنائية PSSM_DWT و KSB_DWT عالية التمييز. بالإضافة إلى ذلك، يتم استخدام الترميز أحادي الحرارة أيضًا لجمع السمات المتسلسلة من عينات الببتيد. وأخيرًا، يتم تشكيل مجموعة من السمات متعددة المنظورات من المعلومات التطورية المتسلسلة والمضمنة. يتم اختيار الميزات المثلى من الميزات المستخرجة عبر Shapley Additive exPlanations (SHAP) من خلال تقييم مساهمة الميزات المستخرجة. يتم تدريب الميزات المثلى عبر ستة نماذج تصنيف، أي XGB و ETC و SVM و ADA و FKNN و LGBM. ثم يتم توفير التسميات المتوقعة لهؤلاء المتعلمين إلى خوارزمية وراثية لتشكيل نهج تصنيف المجموعة. وبالتالي، حقق نموذجنا دقة تنبؤية أعلى بنسبة 94.47 ٪ و 92.55 ٪ باستخدام تسلسلات التدريب والتسلسلات المستقلة، على التوالي. وهي أعلى دقة تنبؤية بقيمة $\sim $ 3% من الطرق الحالية. يُقترح أن تكون أداتنا المقدمة مفيدة وقد تؤدي دورًا كبيرًا في تطوير الأدوية والأوساط الأكاديمية البحثية. الشفرة المصدرية وجميع مجموعات البيانات متاحة للجمهور على https://github.com/shahidawkum/Target-ensC_NP.Translated Description (French)
Les neuropeptides (NP) sont une sorte de neuromodulateur/ neurotransmetteur qui fonctionne comme des molécules de signalisation dans le système nerveux central et joue un rôle majeur dans les activités de régulation physiologique et hormonale. Récemment, les agents thérapeutiques basés sur l'apprentissage automatique ont attiré l'attention des chercheurs en raison de leurs résultats de prédiction élevés et fiables. Cependant, les performances insatisfaisantes des prédicteurs existants sont dues à leur coût d'exécution élevé et à leurs résultats prédictifs minimaux. Par conséquent, le développement d'une prédiction fiable est hautement indispensable pour que les scientifiques puissent prédire efficacement les NP. Dans cette étude, nous avons présenté un modèle automatique et efficace sur le plan informatique pour l'identification des IP. Les informations évolutives sont formulées à l'aide d'une matrice de notation spécifique à la position du bigramme (Bi-PSSM) et d'un bigramme à espacement K (KSB). De plus, pour la réduction du bruit, une transformée en ondelettes discrète (DWT) est utilisée pour former des vecteurs discriminants élevés basés sur Bi-PSSM_DWT et KSB_DWT. En outre, le codage à chaud unique est également utilisé pour collecter des caractéristiques séquentielles à partir d'échantillons de peptides. Enfin, un ensemble de caractéristiques multi-perspectives d'informations évolutives séquentielles et intégrées est formé. Les caractéristiques optimales sont choisies parmi les caractéristiques extraites via Shapley Additive exPlanations (SHAP) en évaluant la contribution des caractéristiques extraites. Les fonctionnalités optimales sont formées via six modèles de classification, à savoir XGB, ETC, SVM, ADA, FKNN et LGBM. Les étiquettes prédites de ces apprenants sont ensuite fournies à un algorithme génétique pour former une approche de classification d'ensemble. Par conséquent, notre modèle a atteint une précision prédictive plus élevée de 94,47 % et 92,55 % en utilisant des séquences d'entraînement et des séquences indépendantes, respectivement. Ce qui est $ \sim $ 3% plus grande précision prédictive que les méthodes actuelles. Il est suggéré que notre outil présenté sera bénéfique et pourrait jouer un rôle important dans le développement de médicaments et les universités de recherche. Le code source et tous les ensembles de données sont accessibles au public sur https://github.com/shahidawkum/Target-ensC_NP.Translated Description (Spanish)
Los neuropéptidos (NP) son un tipo de neuromodulador/ neurotransmisor que funciona como moléculas de señalización en el sistema nervioso central y desempeña funciones importantes en las actividades fisiológicas y de regulación hormonal. Recientemente, los agentes terapéuticos basados en el aprendizaje automático han ganado la atención de los investigadores debido a sus resultados de predicción altos y confiables. Sin embargo, el rendimiento insatisfactorio de los predictores existentes se debe a su alto coste de ejecución y resultados predictivos mínimos. Por lo tanto, el desarrollo de una predicción fiable es muy indispensable para que los científicos puedan predecir eficazmente las NP. En este estudio, presentamos un modelo automático y computacionalmente efectivo para identificar las NP. La información evolutiva se formula utilizando una matriz de puntuación específica de la posición del bigrama (Bi-PSSM) y un bigrama espaciado K (KSB). Además, para la reducción de ruido, se utiliza una transformada de ondícula discreta (DWT) para formar vectores de alta discriminación basados en Bi-PSSM_DWT y KSB_DWT. Además, la codificación de un solo calor también se emplea para recopilar características secuenciales de muestras de péptidos. Finalmente, se forma un conjunto de características multiperspectivas de información evolutiva secuencial e incrustada. Las características óptimas se eligen de las características extraídas a través de Shapley Additive exPlanations (SHAP) mediante la evaluación de la contribución de las características extraídas. Las características óptimas se entrenan a través de seis modelos de clasificación, es decir, XGB, ETC, SVM, ADA, FKNN y LGBM. Las etiquetas predichas de estos alumnos se proporcionan a un algoritmo genético para formar un enfoque de clasificación de conjunto. Por lo tanto, nuestro modelo logró una mayor precisión predictiva del 94.47% y 92.55% utilizando secuencias de entrenamiento y secuencias independientes, respectivamente. Que es $\sim $ 3% más alta precisión predictiva que los métodos actuales. Se sugiere que nuestra herramienta presentada será beneficiosa y puede desempeñar un papel sustancial en el desarrollo de fármacos y la academia de investigación. El código fuente y todos los conjuntos de datos están disponibles públicamente en https://github.com/shahidawkum/Target-ensC_NP.Files
10121673.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:ae1003309c0bb85af9a6dec444a6b708
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحديد الببتيدات العصبية من خلال الأوصاف التطورية والمتسلسلة متعددة وجهات النظر من خلال الدمج مع استراتيجية تصنيف المجموعة
- Translated title (French)
- Identification des néuropeptides via des descripteurs multi-perspectives évolutifs et séquentiels par incorporation avec la stratégie de classification de l'ensemble
- Translated title (Spanish)
- Identificación de neuropéptidos a través de descriptores multiperspectivos basados en la evolución y la secuencia mediante la incorporación con la estrategia de clasificación de conjuntos
Identifiers
- Other
- https://openalex.org/W4382195656
- DOI
- 10.1109/access.2023.3274601
References
- https://openalex.org/W1149957381
- https://openalex.org/W1980969399
- https://openalex.org/W2001936817
- https://openalex.org/W2047110429
- https://openalex.org/W2049383129
- https://openalex.org/W2086473680
- https://openalex.org/W2124632438
- https://openalex.org/W2140125568
- https://openalex.org/W2146957549
- https://openalex.org/W2322691988
- https://openalex.org/W2487584956
- https://openalex.org/W2548077108
- https://openalex.org/W2569818201
- https://openalex.org/W2612935389
- https://openalex.org/W2625609557
- https://openalex.org/W2730968108
- https://openalex.org/W2787867809
- https://openalex.org/W2791451514
- https://openalex.org/W2793496706
- https://openalex.org/W2807186140
- https://openalex.org/W2884524796
- https://openalex.org/W2892741787
- https://openalex.org/W2895576137
- https://openalex.org/W2898323771
- https://openalex.org/W2908012161
- https://openalex.org/W2909686100
- https://openalex.org/W2922561803
- https://openalex.org/W2922873188
- https://openalex.org/W2946492269
- https://openalex.org/W2963647449
- https://openalex.org/W2970541594
- https://openalex.org/W2994622524
- https://openalex.org/W3010907323
- https://openalex.org/W3043293280
- https://openalex.org/W3047310964
- https://openalex.org/W3047446736
- https://openalex.org/W3082185526
- https://openalex.org/W3088195444
- https://openalex.org/W3094312164
- https://openalex.org/W3149930164
- https://openalex.org/W3160988990
- https://openalex.org/W3170338238
- https://openalex.org/W3177371828
- https://openalex.org/W3184871101
- https://openalex.org/W3194982939
- https://openalex.org/W3195657207
- https://openalex.org/W3206048862
- https://openalex.org/W3208498407
- https://openalex.org/W4210522876
- https://openalex.org/W4214819937
- https://openalex.org/W4220838006
- https://openalex.org/W4284973298
- https://openalex.org/W4298325713