Published May 24, 2022 | Version v1
Publication Open

Interpretable Deep Learning Model Reveals Subsequences of Various Functions for Long Non-Coding RNA Identification

  • 1. Chulalongkorn University

Description

Long non-coding RNAs (lncRNAs) play crucial roles in many biological processes and are implicated in several diseases. With the next-generation sequencing technologies, substantial unannotated transcripts have been discovered. Classifying unannotated transcripts using biological experiments are more time-consuming and expensive than computational approaches. Several tools are available for identifying long non-coding RNAs. These tools, however, did not explain the features in their tools that contributed to the prediction results. Here, we present Xlnc1DCNN, a tool for distinguishing long non-coding RNAs (lncRNAs) from protein-coding transcripts (PCTs) using a one-dimensional convolutional neural network with prediction explanations. The evaluation results of the human test set showed that Xlnc1DCNN outperformed other state-of-the-art tools in terms of accuracy and F1-score. The explanation results revealed that lncRNA transcripts were mainly identified as sequences with no conserved regions, short patterns with unknown functions, or only regions of transmembrane helices while protein-coding transcripts were mostly classified by conserved protein domains or families. The explanation results also conveyed the probably inconsistent annotations among the public databases, lncRNA transcripts which contain protein domains, protein families, or intrinsically disordered regions (IDRs). Xlnc1DCNN is freely available at https://github.com/cucpbioinfo/Xlnc1DCNN.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

تلعب الحمض النووي الريبي الطويل غير المشفر (lncRNAs) أدوارًا حاسمة في العديد من العمليات البيولوجية وهي متورطة في العديد من الأمراض. مع تقنيات التسلسل من الجيل التالي، تم اكتشاف نصوص كبيرة غير مشروحة. إن تصنيف النصوص غير المشروحة باستخدام التجارب البيولوجية يستغرق وقتًا طويلاً ومكلفًا أكثر من الأساليب الحسابية. تتوفر العديد من الأدوات لتحديد الحمض النووي الريبوزي الطويل غير المشفر. ومع ذلك، لم تشرح هذه الأدوات الميزات الموجودة في أدواتها والتي ساهمت في نتائج التنبؤ. هنا، نقدم Xlnc1DCNN، وهي أداة لتمييز الحمض النووي الريبي الطويل غير المشفر (lncRNAs) عن نصوص ترميز البروتين (PCTs) باستخدام شبكة عصبية التفافية أحادية البعد مع تفسيرات تنبؤية. أظهرت نتائج تقييم مجموعة الاختبار البشرية أن Xlnc1DCNN تفوقت على أحدث الأدوات الأخرى من حيث الدقة ودرجة F1. كشفت نتائج التفسير أن نصوص lncRNA تم تحديدها بشكل أساسي على أنها متواليات بدون مناطق محفوظة، أو أنماط قصيرة ذات وظائف غير معروفة، أو مناطق فقط من الحلزونات عبر الغشاء بينما تم تصنيف نصوص ترميز البروتين في الغالب حسب مجالات أو عائلات البروتين المحفوظة. كما نقلت نتائج التفسير التعليقات التوضيحية غير المتسقة على الأرجح بين قواعد البيانات العامة، أو نصوص الحمض النووي الريبوزي منقوص الأكسجين (lncRNA) التي تحتوي على مجالات البروتين، أو عائلات البروتين، أو المناطق المضطربة جوهريًا (IDRs). Xlnc1DCNN متاح مجانًا على https://github.com/cucpbioinfo/Xlnc1DCNN.

Translated Description (French)

Les longs ARN non codants (lncRNA) jouent un rôle crucial dans de nombreux processus biologiques et sont impliqués dans plusieurs maladies. Avec les technologies de séquençage de nouvelle génération, d'importantes transcriptions non annotées ont été découvertes. La classification des transcriptions non annotées à l'aide d'expériences biologiques prend plus de temps et est plus coûteuse que les approches informatiques. Plusieurs outils sont disponibles pour identifier les ARN longs non codants. Ces outils, cependant, n'ont pas expliqué les caractéristiques de leurs outils qui ont contribué aux résultats de prédiction. Nous présentons ici Xlnc1DCNN, un outil permettant de distinguer les ARN longs non codants (lncRNA) des transcrits codant pour des protéines (PCT) en utilisant un réseau neuronal convolutionnel unidimensionnel avec des explications de prédiction. Les résultats de l'évaluation de l'ensemble de tests humains ont montré que Xlnc1DCNN surpassait les autres outils de pointe en termes de précision et de score F1. Les résultats de l'explication ont révélé que les transcrits de lncRNA étaient principalement identifiés comme des séquences sans régions conservées, des modèles courts avec des fonctions inconnues, ou seulement des régions d'hélices transmembranaires tandis que les transcrits codant pour des protéines étaient principalement classés par domaines ou familles de protéines conservées. Les résultats de l'explication ont également transmis les annotations probablement incohérentes entre les bases de données publiques, les transcrits d'ARNlnc qui contiennent des domaines protéiques, des familles protéiques ou des régions intrinsèquement désordonnées (IDR). Xlnc1DCNN est disponible gratuitement sur https://github.com/cucpbioinfo/Xlnc1DCNN.

Translated Description (Spanish)

Los ARN no codificantes largos (ARNnc) desempeñan un papel crucial en muchos procesos biológicos y están implicados en varias enfermedades. Con las tecnologías de secuenciación de próxima generación, se han descubierto transcripciones sustanciales no anotadas. La clasificación de transcripciones no anotadas mediante experimentos biológicos consume más tiempo y es más costosa que los enfoques computacionales. Hay varias herramientas disponibles para identificar ARN largos no codificantes. Estas herramientas, sin embargo, no explicaron las características en sus herramientas que contribuyeron a los resultados de la predicción. Aquí, presentamos Xlnc1DCNN, una herramienta para distinguir los ARN largos no codificantes (lncRNA) de las transcripciones codificantes de proteínas (PCT) utilizando una red neuronal convolucional unidimensional con explicaciones de predicción. Los resultados de la evaluación del conjunto de pruebas en humanos mostraron que Xlnc1DCNN superó a otras herramientas de última generación en términos de precisión y puntuación F1. Los resultados de la explicación revelaron que los transcritos de lncRNA se identificaron principalmente como secuencias sin regiones conservadas, patrones cortos con funciones desconocidas o solo regiones de hélices transmembrana, mientras que los transcritos que codifican proteínas se clasificaron principalmente por dominios o familias de proteínas conservadas. Los resultados de la explicación también transmitieron las anotaciones probablemente inconsistentes entre las bases de datos públicas, las transcripciones de lncRNA que contienen dominios de proteínas, familias de proteínas o regiones intrínsecamente desordenadas (IDR). Xlnc1DCNN está disponible gratuitamente en https://github.com/cucpbioinfo/Xlnc1DCNN.

Files

pdf.pdf

Files (3.8 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:a91c5eb8643e65b4f834172de6a76dbd
3.8 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
يكشف نموذج التعلم العميق القابل للتفسير عن التسلسلات الفرعية للوظائف المختلفة لتحديد الحمض النووي الريبي الطويل غير المشفر
Translated title (French)
Le modèle d'apprentissage profond interprétable révèle des sous-séquences de diverses fonctions pour une longue identification d'ARN non codante
Translated title (Spanish)
El modelo interpretable de aprendizaje profundo revela las consecuencias de varias funciones para la identificación larga del ARN no codificante

Identifiers

Other
https://openalex.org/W4285743352
DOI
10.3389/fgene.2022.876721

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W1981509058
  • https://openalex.org/W1998422171
  • https://openalex.org/W2016862442
  • https://openalex.org/W2048194168
  • https://openalex.org/W2068095428
  • https://openalex.org/W2085220756
  • https://openalex.org/W2100779682
  • https://openalex.org/W2105349784
  • https://openalex.org/W2152770371
  • https://openalex.org/W2156125289
  • https://openalex.org/W2259090596
  • https://openalex.org/W2282821441
  • https://openalex.org/W2571489439
  • https://openalex.org/W2605056515
  • https://openalex.org/W2605409611
  • https://openalex.org/W2615786037
  • https://openalex.org/W2765241643
  • https://openalex.org/W2796527248
  • https://openalex.org/W2800620450
  • https://openalex.org/W2807607992
  • https://openalex.org/W2809254203
  • https://openalex.org/W2898598946
  • https://openalex.org/W2899028887
  • https://openalex.org/W2947017644
  • https://openalex.org/W2958089299
  • https://openalex.org/W2962862931
  • https://openalex.org/W2963367647
  • https://openalex.org/W2996028987
  • https://openalex.org/W2998998400
  • https://openalex.org/W2999743161
  • https://openalex.org/W3002423761
  • https://openalex.org/W3015494572
  • https://openalex.org/W3015588906
  • https://openalex.org/W3045332767
  • https://openalex.org/W3094967361
  • https://openalex.org/W3095583226
  • https://openalex.org/W3100777112
  • https://openalex.org/W3110645309
  • https://openalex.org/W3115880421
  • https://openalex.org/W3177341850
  • https://openalex.org/W4237403594
  • https://openalex.org/W4288018044