Unsupervised clustering of SARS-CoV-2 using deep convolutional autoencoder
Creators
- 1. Electronics Research Institute
- 2. Benha University
Description
Abstract SARS-CoV-2's population structure might have a substantial impact on public health management and diagnostics if it can be identified. It is critical to rapidly monitor and characterize their lineages circulating globally for a more accurate diagnosis, improved care, and faster treatment. For a clearer picture of the SARS-CoV-2 population structure, clustering the sequencing data is essential. Here, deep clustering techniques were used to automatically group 29,017 different strains of SARS-CoV-2 into clusters. We aim to identify the main clusters of SARS-CoV-2 population structure based on convolutional autoencoder (CAE) trained with numerical feature vectors mapped from coronavirus Spike peptide sequences. Our clustering findings revealed that there are six large SARS-CoV-2 population clusters (C1, C2, C3, C4, C5, C6). These clusters contained 43 unique lineages in which the 29,017 publicly accessible strains were dispersed. In all the resulting six clusters, the genetic distances within the same cluster (intra-cluster distances) are less than the distances between inter-clusters ( P -value 0.0019, Wilcoxon rank-sum test). This indicates substantial evidence of a connection between the cluster's lineages. Furthermore, comparisons of the K-means and hierarchical clustering methods have been examined against the proposed deep learning clustering method. The intra-cluster genetic distances of the proposed method were smaller than those of K-means alone and hierarchical clustering methods. We used T-distributed stochastic-neighbor embedding (t-SNE) to show the outcomes of the deep learning clustering. The strains were isolated correctly between clusters in the t-SNE plot. Our results showed that the (C5) cluster exclusively includes Gamma lineage (P.1) only, suggesting that strains of P.1 in C5 are more diversified than those in the other clusters. Our study indicates that the genetic similarity between strains in the same cluster enables a better understanding of the major features of the unknown population lineages when compared to some of the more prevalent viral isolates. This information helps researchers figure out how the virus changed over time and spread to people all over the world.
Translated Descriptions
Translated Description (Arabic)
قد يكون للهيكل السكاني الملخص لفيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة (SARS - CoV -2) تأثير كبير على إدارة الصحة العامة والتشخيص إذا أمكن تحديده. من الأهمية بمكان مراقبة وتوصيف سلالاتهم المنتشرة على مستوى العالم بسرعة للحصول على تشخيص أكثر دقة، ورعاية محسنة، وعلاج أسرع. للحصول على صورة أوضح للهيكل السكاني لفيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة، من الضروري تجميع بيانات التسلسل. هنا، تم استخدام تقنيات التجميع العميق لتجميع 29,017 سلالة مختلفة من سارس- كوف-2 تلقائيًا في مجموعات. نهدف إلى تحديد المجموعات الرئيسية للهيكل السكاني لفيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة (SARS - CoV -2) بناءً على جهاز الترميز التلقائي الالتفافي (CAE) المدرّب على ناقلات السمات العددية التي تم تعيينها من تسلسلات الببتيد Spike لفيروس كورونا. كشفت نتائج التجميع التي توصلنا إليها أن هناك ست مجموعات سكانية كبيرة من فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة (C1، C2، C3، C4، C5، C6). احتوت هذه المجموعات على 43 سلالة فريدة تم فيها تفريق 29,017 سلالة متاحة للجمهور. في جميع المجموعات الست الناتجة، تكون المسافات الوراثية داخل نفس المجموعة (المسافات داخل المجموعة) أقل من المسافات بين المجموعات ( P - value 0.0019، اختبار مجموع تصنيف ويلكوكسون). يشير هذا إلى دليل كبير على وجود صلة بين سلالات المجموعة. علاوة على ذلك، تم فحص مقارنات وسائل K وطرق التجميع الهرمي مقابل طريقة تجميع التعلم العميق المقترحة. كانت المسافات الوراثية داخل المجموعة للطريقة المقترحة أصغر من تلك الخاصة بوسائل K وحدها وطرق التجميع الهرمي. استخدمنا تضمين الجار العشوائي الموزع على شكل حرف T (t - SNE) لإظهار نتائج تجميع التعلم العميق. تم عزل السلالات بشكل صحيح بين المجموعات في مخطط t - SNE. أظهرت نتائجنا أن مجموعة (C5) تتضمن حصريًا سلالة جاما (ص .1) فقط، مما يشير إلى أن سلالات P.1 في C5 أكثر تنوعًا من تلك الموجودة في المجموعات الأخرى. تشير دراستنا إلى أن التشابه الجيني بين السلالات في نفس المجموعة يتيح فهمًا أفضل للسمات الرئيسية للأنساب السكانية غير المعروفة عند مقارنتها ببعض العزلات الفيروسية الأكثر انتشارًا. تساعد هذه المعلومات الباحثين على معرفة كيف تغير الفيروس بمرور الوقت وانتشر إلى الناس في جميع أنحاء العالم.Translated Description (French)
Résumé La structure de la population du SRAS-CoV-2 pourrait avoir un impact substantiel sur la gestion et le diagnostic de la santé publique si elle peut être identifiée. Il est essentiel de surveiller et de caractériser rapidement leurs lignées circulant dans le monde pour un diagnostic plus précis, des soins améliorés et un traitement plus rapide. Pour une image plus claire de la structure de la population du SRAS-CoV-2, il est essentiel de regrouper les données de séquençage. Ici, des techniques de regroupement en grappes profondes ont été utilisées pour regrouper automatiquement 29 017 souches différentes de SARS-CoV-2 en grappes. Nous visons à identifier les principaux grappes de la structure de la population du SRAS-CoV-2 sur la base d'un auto-encodeur convolutionnel (IAO) formé avec des vecteurs de caractéristiques numériques cartographiés à partir de séquences peptidiques Spike du coronavirus. Nos résultats de regroupement ont révélé qu'il existe six grands groupes de population SARS-CoV-2 (C1, C2, C3, C4, C5, C6). Ces grappes contenaient 43 lignées uniques dans lesquelles les 29 017 souches accessibles au public étaient dispersées. Dans tous les six amas résultants, les distances génétiques au sein d'un même amas (distances intra-amas) sont inférieures aux distances entre amas (valeur P 0,0019, test de la somme des rangs de Wilcoxon). Cela indique des preuves substantielles d'un lien entre les lignées du cluster. En outre, les comparaisons des moyennes K et des méthodes de clustering hiérarchiques ont été examinées par rapport à la méthode de clustering d'apprentissage profond proposée. Les distances génétiques intra-cluster de la méthode proposée étaient plus petites que celles des moyennes K seules et des méthodes de regroupement hiérarchique. Nous avons utilisé T-distributed stochastic-neighbor embedding (t-SNE) pour montrer les résultats du clustering d'apprentissage profond. Les souches ont été isolées correctement entre les grappes dans la parcelle t-SNE. Nos résultats ont montré que le cluster (C5) inclut exclusivement la lignée Gamma (P.1) seulement, suggérant que les souches de P.1 en C5 sont plus diversifiées que celles des autres clusters. Notre étude indique que la similitude génétique entre les souches d'un même groupe permet de mieux comprendre les principales caractéristiques des lignées de populations inconnues par rapport à certains des isolats viraux les plus répandus. Ces informations aident les chercheurs à comprendre comment le virus a évolué au fil du temps et s'est propagé aux personnes du monde entier.Translated Description (Spanish)
La estructura de la población del SARS-CoV-2 podría tener un impacto sustancial en la gestión y el diagnóstico de la salud pública si se puede identificar. Es fundamental monitorear y caracterizar rápidamente sus linajes que circulan a nivel mundial para un diagnóstico más preciso, una mejor atención y un tratamiento más rápido. Para obtener una imagen más clara de la estructura de la población del SARS-CoV-2, es esencial agrupar los datos de secuenciación. Aquí, se utilizaron técnicas de agrupamiento profundo para agrupar automáticamente 29.017 cepas diferentes de SARS-CoV-2 en grupos. Nuestro objetivo es identificar los principales grupos de la estructura de la población del SARS-CoV-2 basados en el autoencodificador convolucional (cae) entrenado con vectores de características numéricas mapeados a partir de secuencias de péptidos Spike del coronavirus. Nuestros hallazgos de agrupación revelaron que hay seis grandes grupos de población de SARS-CoV-2 (C1, C2, C3, C4, C5, C6). Estos grupos contenían 43 linajes únicos en los que se dispersaron las 29.017 cepas de acceso público. En los seis grupos resultantes, las distancias genéticas dentro del mismo grupo (distancias intra-grupo) son menores que las distancias entre inter-grupos (valor P 0.0019, prueba de suma de rangos de Wilcoxon). Esto indica una evidencia sustancial de una conexión entre los linajes del grupo. Además, se han examinado las comparaciones de las medias K y los métodos de agrupamiento jerárquico con el método de agrupamiento de aprendizaje profundo propuesto. Las distancias genéticas dentro del clúster del método propuesto fueron más pequeñas que las de las K-medias solas y los métodos de agrupamiento jerárquico. Utilizamos la incorporación de vecinos estocásticos distribuidos en T (t-SNE) para mostrar los resultados del agrupamiento de aprendizaje profundo. Las cepas se aislaron correctamente entre los grupos en la gráfica de t-SNE. Nuestros resultados mostraron que el grupo (C5) incluye exclusivamente el linaje gamma (P.1), lo que sugiere que las cepas de P.1 en C5 están más diversificadas que las de los otros grupos. Nuestro estudio indica que la similitud genética entre cepas en el mismo grupo permite una mejor comprensión de las principales características de los linajes de población desconocidos en comparación con algunos de los aislados virales más prevalentes. Esta información ayuda a los investigadores a descubrir cómo el virus cambió con el tiempo y se propagó a personas de todo el mundo.Files
s44147-022-00125-0.pdf
Files
(1.8 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:066eaf58ee6b8764155c3130e60d2740
|
1.8 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تجميع غير خاضع للإشراف لـ SARS - CoV -2 باستخدام الترميز التلقائي الالتفافي العميق
- Translated title (French)
- Regroupement non supervisé du SARS-CoV-2 à l'aide d'un auto-encodeur convolutif profond
- Translated title (Spanish)
- Agrupación no supervisada de SARS-CoV-2 utilizando un autocodificador convolucional profundo
Identifiers
- Other
- https://openalex.org/W4292266001
- DOI
- 10.1186/s44147-022-00125-0
References
- https://openalex.org/W1852605861
- https://openalex.org/W1966715903
- https://openalex.org/W2126714764
- https://openalex.org/W2145191876
- https://openalex.org/W2171464043
- https://openalex.org/W2586952891
- https://openalex.org/W2800328275
- https://openalex.org/W2884851420
- https://openalex.org/W2935703330
- https://openalex.org/W2963776453
- https://openalex.org/W2964074409
- https://openalex.org/W3003753408
- https://openalex.org/W3013019084
- https://openalex.org/W3015444032
- https://openalex.org/W3035550924
- https://openalex.org/W3043124965
- https://openalex.org/W3043170332
- https://openalex.org/W3045874508
- https://openalex.org/W3082463691
- https://openalex.org/W3083586486
- https://openalex.org/W3093172834
- https://openalex.org/W3093806642
- https://openalex.org/W3102452523
- https://openalex.org/W3118860522
- https://openalex.org/W3120559956
- https://openalex.org/W3128792544
- https://openalex.org/W3135435709
- https://openalex.org/W3153581565
- https://openalex.org/W3165479483
- https://openalex.org/W3176122691
- https://openalex.org/W3186432537
- https://openalex.org/W3191643769
- https://openalex.org/W3205230425
- https://openalex.org/W4206182892
- https://openalex.org/W4229026853
- https://openalex.org/W4280640156