iEnhancer-ECNN: identifying enhancers and their strength using ensembles of convolutional neural networks
Creators
- 1. Hanoi University of Science and Technology
- 2. Victoria University of Wellington
- 3. Taipei Medical University
- 4. Intel (Taiwan)
- 5. Duy Tan University
- 6. Northwestern Polytechnical University
Description
Abstract Background Enhancers are non-coding DNA fragments which are crucial in gene regulation (e.g. transcription and translation). Having high locational variation and free scattering in 98% of non-encoding genomes, enhancer identification is, therefore, more complicated than other genetic factors. To address this biological issue, several in silico studies have been done to identify and classify enhancer sequences among a myriad of DNA sequences using computational advances. Although recent studies have come up with improved performance, shortfalls in these learning models still remain. To overcome limitations of existing learning models, we introduce iEnhancer-ECNN, an efficient prediction framework using one-hot encoding and k -mers for data transformation and ensembles of convolutional neural networks for model construction, to identify enhancers and classify their strength. The benchmark dataset from Liu et al.'s study was used to develop and evaluate the ensemble models. A comparative analysis between iEnhancer-ECNN and existing state-of-the-art methods was done to fairly assess the model performance. Results Our experimental results demonstrates that iEnhancer-ECNN has better performance compared to other state-of-the-art methods using the same dataset. The accuracy of the ensemble model for enhancer identification (layer 1) and enhancer classification (layer 2) are 0.769 and 0.678, respectively. Compared to other related studies, improvements in the Area Under the Receiver Operating Characteristic Curve (AUC), sensitivity, and Matthews's correlation coefficient (MCC) of our models are remarkable, especially for the model of layer 2 with about 11.0%, 46.5%, and 65.0%, respectively. Conclusions iEnhancer-ECNN outperforms other previously proposed methods with significant improvement in most of the evaluation metrics. Strong growths in the MCC of both layers are highly meaningful in assuring the stability of our models.
Translated Descriptions
Translated Description (Arabic)
معززات الخلفية المجردة هي شظايا الحمض النووي غير المشفرة والتي تعتبر حاسمة في تنظيم الجينات (مثل النسخ والترجمة). وجود تباين كبير في الموقع وتشتت حر في 98 ٪ من الجينومات غير المشفرة، وبالتالي فإن تحديد المحسن أكثر تعقيدًا من العوامل الوراثية الأخرى. لمعالجة هذه المشكلة البيولوجية، تم إجراء العديد من الدراسات السيليكية لتحديد وتصنيف تسلسلات المحسنات بين عدد لا يحصى من تسلسلات الحمض النووي باستخدام التطورات الحسابية. على الرغم من أن الدراسات الحديثة قد توصلت إلى تحسين الأداء، إلا أن أوجه القصور في نماذج التعلم هذه لا تزال قائمة. للتغلب على قيود نماذج التعلم الحالية، نقدم iEnhancer - ECNN، وهو إطار تنبؤ فعال يستخدم ترميزًا أحاديًا و k - mers لتحويل البيانات ومجموعات الشبكات العصبية الالتفافية لبناء النماذج، لتحديد المعززات وتصنيف قوتها. تم استخدام مجموعة البيانات المعيارية من دراسة ليو وآخرون لتطوير وتقييم نماذج المجموعة. تم إجراء تحليل مقارن بين iEnhancer - ECNN والأساليب الحديثة الحالية لتقييم أداء النموذج بشكل عادل. النتائج توضح نتائجنا التجريبية أن iEnhancer - ECNN تتمتع بأداء أفضل مقارنة بالطرق الحديثة الأخرى التي تستخدم نفس مجموعة البيانات. تبلغ دقة نموذج المجموعة لتحديد المحسن (الطبقة 1) وتصنيف المحسن (الطبقة 2) 0.769 و 0.678 على التوالي. بالمقارنة مع الدراسات الأخرى ذات الصلة، فإن التحسينات في المنطقة تحت منحنى خصائص تشغيل المتلقي (AUC) والحساسية ومعامل ارتباط ماثيوز (MCC) لنماذجنا ملحوظة، خاصة بالنسبة لنموذج الطبقة 2 بحوالي 11.0 ٪ و 46.5 ٪ و 65.0 ٪ على التوالي. تتفوق iEnhancer - ECNN على الطرق الأخرى المقترحة سابقًا مع تحسن كبير في معظم مقاييس التقييم. إن النمو القوي في MCC لكلا الطبقتين له أهمية كبيرة في ضمان استقرار نماذجنا.Translated Description (French)
Résumé Contexte Les activateurs sont des fragments d'ADN non codants qui sont cruciaux dans la régulation des gènes (par exemple, la transcription et la traduction). Ayant une variation de localisation élevée et une diffusion libre dans 98 % des génomes non codants, l'identification de l'activateur est donc plus compliquée que d'autres facteurs génétiques. Pour résoudre ce problème biologique, plusieurs études in silico ont été menées pour identifier et classer les séquences activatrices parmi une myriade de séquences d'ADN à l'aide d'avancées informatiques. Bien que des études récentes aient permis d'améliorer les performances, des lacunes subsistent dans ces modèles d'apprentissage. Pour surmonter les limites des modèles d'apprentissage existants, nous introduisons iEnhancer-ECNN, un cadre de prédiction efficace utilisant un codage monohot et des k-mères pour la transformation des données et des ensembles de réseaux neuronaux convolutionnels pour la construction de modèles, afin d'identifier les amplificateurs et de classer leur force. L'ensemble de données de référence de l'étude de Liu et al. a été utilisé pour développer et évaluer les modèles d'ensemble. Une analyse comparative entre iEnhancer-ECNN et les méthodes de pointe existantes a été effectuée pour évaluer équitablement les performances du modèle. Résultats Nos résultats expérimentaux démontrent que iEnhancer-ECNN a de meilleures performances par rapport à d'autres méthodes de pointe utilisant le même ensemble de données. La précision du modèle d'ensemble pour l'identification de l'amplificateur (couche 1) et la classification de l'amplificateur (couche 2) sont de 0,769 et 0,678, respectivement. Par rapport à d'autres études connexes, les améliorations de la zone sous la courbe des caractéristiques opérationnelles du récepteur (AUC), de la sensibilité et du coefficient de corrélation de Matthews (MCC) de nos modèles sont remarquables, en particulier pour le modèle de la couche 2 avec environ 11,0 %, 46,5 % et 65,0 %, respectivement. Conclusions iEnhancer-ECNN surpasse les autres méthodes proposées précédemment avec une amélioration significative de la plupart des paramètres d'évaluation. Les fortes croissances dans le MCC des deux couches sont très significatives pour assurer la stabilité de nos modèles.Translated Description (Spanish)
Resumen Antecedentes Los potenciadores son fragmentos de ADN no codificantes que son cruciales en la regulación génica (por ejemplo, transcripción y traducción). Al tener una alta variación de ubicación y dispersión libre en el 98% de los genomas no codificantes, la identificación del potenciador es, por lo tanto, más complicada que otros factores genéticos. Para abordar este problema biológico, se han realizado varios estudios in silico para identificar y clasificar secuencias potenciadoras entre una miríada de secuencias de ADN utilizando avances computacionales. Aunque estudios recientes han demostrado un mejor rendimiento, aún persisten deficiencias en estos modelos de aprendizaje. Para superar las limitaciones de los modelos de aprendizaje existentes, presentamos iEnhancer-ECNN, un marco de predicción eficiente que utiliza codificación one-hot y k-mers para la transformación de datos y conjuntos de redes neuronales convolucionales para la construcción de modelos, para identificar potenciadores y clasificar su fortaleza. El conjunto de datos de referencia del estudio de Liu et al. se utilizó para desarrollar y evaluar los modelos de conjunto. Se realizó un análisis comparativo entre iEnhancer-ECNN y los métodos de vanguardia existentes para evaluar de manera justa el rendimiento del modelo. Resultados Nuestros resultados experimentales demuestran que iEnhancer-ECNN tiene un mejor rendimiento en comparación con otros métodos de vanguardia que utilizan el mismo conjunto de datos. La precisión del modelo de conjunto para la identificación del potenciador (capa 1) y la clasificación del potenciador (capa 2) son 0.769 y 0.678, respectivamente. En comparación con otros estudios relacionados, las mejoras en el área bajo la curva de características operativas del receptor (AUC), la sensibilidad y el coeficiente de correlación de Matthews (MCC) de nuestros modelos son notables, especialmente para el modelo de capa 2 con aproximadamente 11.0%, 46.5% y 65.0%, respectivamente. Conclusiones iEnhancer-ECNN supera a otros métodos propuestos anteriormente con una mejora significativa en la mayoría de las métricas de evaluación. Los fuertes crecimientos en el MCC de ambas capas son muy significativos para asegurar la estabilidad de nuestros modelos.Files
s12864-019-6336-3.pdf
Files
(1.6 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:f56478f2868c0696ba910e3174870461
|
1.6 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- iEnhancer - ECNN: تحديد المعززات وقوتها باستخدام مجموعات من الشبكات العصبية الالتفافية
- Translated title (French)
- iEnhancer-ECNN : identifier les amplificateurs et leur force à l'aide d'ensembles de réseaux neuronaux convolutionnels
- Translated title (Spanish)
- iEnhancer-ECNN: identificación de potenciadores y su fuerza utilizando conjuntos de redes neuronales convolucionales
Identifiers
- Other
- https://openalex.org/W2996783813
- DOI
- 10.1186/s12864-019-6336-3
References
- https://openalex.org/W1807324513
- https://openalex.org/W1972255859
- https://openalex.org/W1976117323
- https://openalex.org/W1977855308
- https://openalex.org/W1998306196
- https://openalex.org/W2025836692
- https://openalex.org/W2034502656
- https://openalex.org/W2041877620
- https://openalex.org/W2084160423
- https://openalex.org/W2100847260
- https://openalex.org/W2115530456
- https://openalex.org/W2115717891
- https://openalex.org/W2134854530
- https://openalex.org/W2151754128
- https://openalex.org/W2158266834
- https://openalex.org/W2168602111
- https://openalex.org/W2170747616
- https://openalex.org/W2259938310
- https://openalex.org/W2516911135
- https://openalex.org/W2518319998
- https://openalex.org/W2565121836
- https://openalex.org/W2602545710
- https://openalex.org/W2766812108
- https://openalex.org/W2767199852
- https://openalex.org/W2771169143
- https://openalex.org/W2772741766
- https://openalex.org/W2802765514
- https://openalex.org/W2807186140
- https://openalex.org/W2911079020
- https://openalex.org/W2950077732