IPEV: identification of prokaryotic and eukaryotic virus-derived sequences in virome using deep learning
Creators
- 1. Peking University
- 2. Emory University
- 3. Georgia Institute of Technology
- 4. Beijing Institute of Genomics
- 5. Chinese Academy of Sciences
Description
Abstract Background The virome obtained through virus-like particle enrichment contains a mixture of prokaryotic and eukaryotic virus-derived fragments. Accurate identification and classification of these elements are crucial to understanding their roles and functions in microbial communities. However, the rapid mutation rates of viral genomes pose challenges in developing high-performance tools for classification, potentially limiting downstream analyses. Findings We present IPEV, a novel method to distinguish prokaryotic and eukaryotic viruses in viromes, with a 2-dimensional convolutional neural network combining trinucleotide pair relative distance and frequency. Cross-validation assessments of IPEV demonstrate its state-of-the-art precision, significantly improving the F1-score by approximately 22% on an independent test set compared to existing methods when query viruses share less than 30% sequence similarity with known viruses. Furthermore, IPEV outperforms other methods in accuracy on marine and gut virome samples based on annotations by sequence alignments. IPEV reduces runtime by at most 1,225 times compared to existing methods under the same computing configuration. We also utilized IPEV to analyze longitudinal samples and found that the gut virome exhibits a higher degree of temporal stability than previously observed in persistent personal viromes, providing novel insights into the resilience of the gut virome in individuals. Conclusions IPEV is a high-performance, user-friendly tool that assists biologists in identifying and classifying prokaryotic and eukaryotic viruses within viromes. The tool is available at https://github.com/basehc/IPEV.
Translated Descriptions
Translated Description (Arabic)
خلفية مجردة يحتوي الفيروس الذي تم الحصول عليه من خلال تخصيب الجسيمات الشبيهة بالفيروس على مزيج من شظايا بدائية النواة وحقيقية النواة المشتقة من الفيروس. يعد التحديد والتصنيف الدقيق لهذه العناصر أمرًا بالغ الأهمية لفهم أدوارها ووظائفها في المجتمعات الميكروبية. ومع ذلك، فإن معدلات الطفرات السريعة للجينوم الفيروسي تشكل تحديات في تطوير أدوات عالية الأداء للتصنيف، مما قد يحد من التحليلات النهائية. النتائج نقدم IPEV، وهي طريقة جديدة للتمييز بين فيروسات بدائية النواة وحقيقية النواة في الفيروسات، مع شبكة عصبية التفافية ثنائية الأبعاد تجمع بين المسافة النسبية والتردد لزوج ثلاثي النوكليوتيدات. تُظهر تقييمات التحقق المتبادل من IPEV دقتها الحديثة، مما يحسن بشكل كبير درجة F1 بنسبة 22 ٪ تقريبًا في مجموعة اختبار مستقلة مقارنة بالطرق الحالية عندما تشترك فيروسات الاستعلام في تشابه تسلسل أقل من 30 ٪ مع الفيروسات المعروفة. علاوة على ذلك، يتفوق IPEV على الطرق الأخرى في الدقة على عينات الفيروسات البحرية والأمعاء بناءً على التعليقات التوضيحية من خلال محاذاة التسلسل. يقلل IPEV وقت التشغيل بمقدار 1225 مرة على الأكثر مقارنة بالطرق الحالية تحت نفس تكوين الحوسبة. استخدمنا أيضًا IPEV لتحليل العينات الطولية ووجدنا أن فيروسات الأمعاء تظهر درجة أعلى من الاستقرار الزمني مما لوحظ سابقًا في الفيروسات الشخصية المستمرة، مما يوفر رؤى جديدة حول مرونة فيروسات الأمعاء لدى الأفراد. الخلاصة IPEV هي أداة عالية الأداء وسهلة الاستخدام تساعد علماء الأحياء في تحديد وتصنيف فيروسات بدائية النواة وحقيقية النواة داخل الفيروسات. الأداة متاحة على https://github.com/basehc/IPEV.Translated Description (French)
Résumé Contexte Le virome obtenu par enrichissement de particules de type viral contient un mélange de fragments dérivés de virus procaryotes et eucaryotes. L'identification et la classification précises de ces éléments sont essentielles pour comprendre leurs rôles et leurs fonctions dans les communautés microbiennes. Cependant, les taux de mutation rapide des génomes viraux posent des défis dans le développement d'outils de classification performants, limitant potentiellement les analyses en aval. Résultats Nous présentons IPEV, une nouvelle méthode pour distinguer les virus procaryotes et eucaryotes dans les viromes, avec un réseau neuronal convolutif bidimensionnel combinant la distance et la fréquence relatives des paires de trinucléotides. Les évaluations de validation croisée de l'IPEV démontrent sa précision de pointe, améliorant considérablement le score F1 d'environ 22 % sur un ensemble de tests indépendants par rapport aux méthodes existantes lorsque les virus de requête partagent moins de 30 % de similarité de séquence avec les virus connus. En outre, l'IPEV surpasse les autres méthodes en termes de précision sur les échantillons de virome marin et intestinal sur la base d'annotations par alignements de séquences. IPEV réduit le temps d'exécution d'au plus 1 225 fois par rapport aux méthodes existantes dans la même configuration informatique. Nous avons également utilisé l'IPEV pour analyser des échantillons longitudinaux et avons constaté que le virome intestinal présentait un degré de stabilité temporelle plus élevé que celui précédemment observé dans les viromes personnels persistants, fournissant de nouvelles informations sur la résilience du virome intestinal chez les individus. Conclusions L'IPEV est un outil performant et convivial qui aide les biologistes à identifier et à classer les virus procaryotes et eucaryotes dans les viromes. L'outil est disponible sur https://github.com/basehc/IPEV.Translated Description (Spanish)
Resumen Antecedentes El viroma obtenido a través del enriquecimiento de partículas similares a virus contiene una mezcla de fragmentos derivados de virus procariotas y eucariotas. La identificación y clasificación precisas de estos elementos son cruciales para comprender sus roles y funciones en las comunidades microbianas. Sin embargo, las rápidas tasas de mutación de los genomas virales plantean desafíos en el desarrollo de herramientas de alto rendimiento para la clasificación, lo que podría limitar los análisis posteriores. Hallazgos Presentamos IPEV, un novedoso método para distinguir virus procariotas y eucariotas en viromas, con una red neuronal convolucional bidimensional que combina el par de trinucleótidos distancia relativa y frecuencia. Las evaluaciones de validación cruzada de IPEV demuestran su precisión de vanguardia, mejorando significativamente la puntuación F1 en aproximadamente un 22% en un conjunto de pruebas independientes en comparación con los métodos existentes cuando los virus de consulta comparten menos del 30% de similitud de secuencia con virus conocidos. Además, IPEV supera a otros métodos en precisión en muestras de viromas marinos e intestinales basadas en anotaciones por alineaciones de secuencias. IPEV reduce el tiempo de ejecución en un máximo de 1.225 veces en comparación con los métodos existentes bajo la misma configuración informática. También utilizamos IPEV para analizar muestras longitudinales y descubrimos que el viroma intestinal exhibe un mayor grado de estabilidad temporal que el observado previamente en viromas personales persistentes, lo que proporciona nuevos conocimientos sobre la resiliencia del viroma intestinal en individuos. Conclusiones IPEV es una herramienta de alto rendimiento y fácil de usar que ayuda a los biólogos a identificar y clasificar los virus procariotas y eucariotas dentro de los viromas. La herramienta está disponible en https://github.com/basehc/IPEV.Files
giae018.pdf.pdf
Files
(93 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:b0d506893d4802090edf1644f5f082cd
|
93 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- IPEV: تحديد التسلسلات المشتقة من بدائية النواة وحقيقية النواة في الفيروس باستخدام التعلم العميق
- Translated title (French)
- IPEV : identification de séquences dérivées de virus procaryotes et eucaryotes dans le virome à l'aide de l'apprentissage en profondeur
- Translated title (Spanish)
- IPEV: identificación de secuencias derivadas de virus procariotas y eucariotas en viroma mediante aprendizaje profundo
Identifiers
- Other
- https://openalex.org/W4395016580
- DOI
- 10.1093/gigascience/giae018
References
- https://openalex.org/W1689013859
- https://openalex.org/W2020088405
- https://openalex.org/W2020783477
- https://openalex.org/W2028776321
- https://openalex.org/W2029926937
- https://openalex.org/W2048818637
- https://openalex.org/W2084814249
- https://openalex.org/W2101023361
- https://openalex.org/W2101551832
- https://openalex.org/W2119859604
- https://openalex.org/W2120902911
- https://openalex.org/W2137044495
- https://openalex.org/W2140437331
- https://openalex.org/W2142678031
- https://openalex.org/W2160542132
- https://openalex.org/W2169899471
- https://openalex.org/W2236941093
- https://openalex.org/W2245444176
- https://openalex.org/W2291003811
- https://openalex.org/W2504173038
- https://openalex.org/W2587382807
- https://openalex.org/W2732139758
- https://openalex.org/W2734399491
- https://openalex.org/W2751684444
- https://openalex.org/W2765313377
- https://openalex.org/W2765581316
- https://openalex.org/W2790088260
- https://openalex.org/W2793461621
- https://openalex.org/W2912609145
- https://openalex.org/W2919326595
- https://openalex.org/W2940459311
- https://openalex.org/W2943223175
- https://openalex.org/W2949831026
- https://openalex.org/W2961387603
- https://openalex.org/W2979358136
- https://openalex.org/W2990215402
- https://openalex.org/W3003110834
- https://openalex.org/W3006374408
- https://openalex.org/W3013271851
- https://openalex.org/W3029256690
- https://openalex.org/W3033129278
- https://openalex.org/W3037496568
- https://openalex.org/W3048090444
- https://openalex.org/W3048846953
- https://openalex.org/W3098935121
- https://openalex.org/W3118531686
- https://openalex.org/W3118981004
- https://openalex.org/W3127656915
- https://openalex.org/W3163659987
- https://openalex.org/W3173126360
- https://openalex.org/W3191098167
- https://openalex.org/W3197879762
- https://openalex.org/W4206725450
- https://openalex.org/W4211204104
- https://openalex.org/W4226147938
- https://openalex.org/W4309305993
- https://openalex.org/W4366602379
- https://openalex.org/W4375864930
- https://openalex.org/W4386212812
- https://openalex.org/W4388651733
- https://openalex.org/W883247929