Time Series Analysis of SARS-CoV-2 Genomes and Correlations among Highly Prevalent Mutations
Creators
- 1. Jamia Hamdard
- 2. Govind Ballabh Pant University of Agriculture and Technology
- 3. University of Delhi
- 4. Humber College
- 5. Delhi Pharmaceutical Science and Research University
- 6. Panjab University
- 7. Central Drug Research Institute
Description
The efforts of the scientific community to tame the recent pandemic caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) seem to have been diluted by the emergence of new viral strains. Therefore, it is imperative to understand the effect of mutations on viral evolution. We performed a time series analysis on 59,541 SARS-CoV-2 genomic sequences from around the world to gain insights into the kinetics of the mutations arising in the viral genomes. These 59,541 genomes were grouped according to month (January 2020 to March 2021) based on the collection date. Meta-analysis of these data led us to identify significant mutations in viral genomes. Pearson correlation of these mutations led us to the identification of 16 comutations. Among these comutations, some of the individual mutations have been shown to contribute to viral replication and fitness, suggesting a possible role of other unexplored mutations in viral evolution. We observed that the mutations 241C>T in the 5' untranslated region (UTR), 3037C>T in nsp3, 14408C>T in the RNA-dependent RNA polymerase (RdRp), and 23403A>G in spike are correlated with each other and were grouped in a single cluster by hierarchical clustering. These mutations have replaced the wild-type nucleotides in SARS-CoV-2 sequences. Additionally, we employed a suite of computational tools to investigate the effects of T85I (1059C>T), P323L (14408C>T), and Q57H (25563G>T) mutations in nsp2, RdRp, and the ORF3a protein of SARS-CoV-2, respectively. We observed that the mutations T85I and Q57H tend to be deleterious and destabilize the respective wild-type protein, whereas P323L in RdRp tends to be neutral and has a stabilizing effect. IMPORTANCE We performed a meta-analysis on SARS-CoV-2 genomes categorized by collection month and identified several significant mutations. Pearson correlation analysis of these significant mutations identified 16 comutations having absolute correlation coefficients of >0.4 and a frequency of >30% in the genomes used in this study. The correlation results were further validated by another statistical tool called hierarchical clustering, where mutations were grouped in clusters on the basis of their similarity. We identified several positive and negative correlations among comutations in SARS-CoV-2 isolates from around the world which might contribute to viral pathogenesis. The negative correlations among some of the mutations in SARS-CoV-2 identified in this study warrant further investigations. Further analysis of mutations such as T85I in nsp2 and Q57H in ORF3a protein revealed that these mutations tend to destabilize the protein relative to the wild type, whereas P323L in RdRp is neutral and has a stabilizing effect. Thus, we have identified several comutations which can be further characterized to gain insights into SARS-CoV-2 evolution.
Translated Descriptions
Translated Description (Arabic)
يبدو أن جهود المجتمع العلمي لترويض الوباء الأخير الناجم عن فيروس كورونا 2 المرتبط بالمتلازمة التنفسية الحادة الوخيمة (SARS - CoV -2) قد تضاءلت بسبب ظهور سلالات فيروسية جديدة. لذلك، من الضروري فهم تأثير الطفرات على التطور الفيروسي. أجرينا تحليلًا للسلاسل الزمنية على 59,541 تسلسل جينومي لفيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة من جميع أنحاء العالم لاكتساب رؤى حول حركية الطفرات الناشئة في الجينومات الفيروسية. تم تجميع هذه الجينومات البالغ عددها 59,541 وفقًا للشهر (يناير 2020 إلى مارس 2021) بناءً على تاريخ الجمع. قادنا التحليل التلوي لهذه البيانات إلى تحديد طفرات مهمة في الجينومات الفيروسية. أدى ارتباط بيرسون بهذه الطفرات إلى تحديد 16 طفرة. من بين هذه الطفرات، ثبت أن بعض الطفرات الفردية تساهم في التكاثر الفيروسي واللياقة البدنية، مما يشير إلى دور محتمل للطفرات الأخرى غير المستكشفة في التطور الفيروسي. لاحظنا أن الطفرات 241C >T في المنطقة غير المترجمة 5'(UTR)، 3037C >T في nsp3، 14408C >T في بوليميراز الحمض النووي الريبي المعتمد على الحمض النووي الريبي (RdRp)، و 23403A >G في السنبلة مرتبطة ببعضها البعض وتم تجميعها في مجموعة واحدة حسب التجميع الهرمي. حلت هذه الطفرات محل النيوكليوتيدات البرية في تسلسلات فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة. بالإضافة إلى ذلك، استخدمنا مجموعة من الأدوات الحسابية للتحقيق في تأثيرات طفرات T85I (1059C >T) و P323L (14408C >T) و Q57H (25563G >T) في nsp2 و RdRp وبروتين ORF3a لفيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة، على التوالي. لاحظنا أن الطفرات T85I و Q57H تميل إلى أن تكون ضارة وتزعزع استقرار البروتين من النوع البري المعني، في حين أن P323L في RdRp تميل إلى أن تكون محايدة ولها تأثير استقرار. الأهمية أجرينا تحليلًا تلويًا على جينومات فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة مصنفة حسب شهر الجمع وحددنا العديد من الطفرات المهمة. حدد تحليل ارتباط بيرسون لهذه الطفرات المهمة 16 طفرة لها معاملات ارتباط مطلقة >0.4 وتردد >30 ٪ في الجينومات المستخدمة في هذه الدراسة. تم التحقق من صحة نتائج الارتباط من خلال أداة إحصائية أخرى تسمى التجميع الهرمي، حيث تم تجميع الطفرات في مجموعات على أساس تشابهها. حددنا العديد من الارتباطات الإيجابية والسلبية بين الارتباطات في عزلات فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة من جميع أنحاء العالم والتي قد تسهم في التسبب في الأمراض الفيروسية. تتطلب الارتباطات السلبية بين بعض الطفرات في فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة المحددة في هذه الدراسة مزيدًا من التحقيقات. كشف مزيد من التحليل للطفرات مثل T85I في nsp2 و Q57H في بروتين ORF3a أن هذه الطفرات تميل إلى زعزعة استقرار البروتين بالنسبة للنوع البري، في حين أن P323L في RdRp محايد وله تأثير استقرار. وبالتالي، حددنا العديد من التفاعلات التي يمكن وصفها بشكل أكبر لاكتساب رؤى حول تطور فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة.Translated Description (French)
Les efforts de la communauté scientifique pour apprivoiser la récente pandémie causée par le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) semblent avoir été dilués par l'émergence de nouvelles souches virales. Par conséquent, il est impératif de comprendre l'effet des mutations sur l'évolution virale. Nous avons effectué une analyse de séries chronologiques sur 59 541 séquences génomiques du SRAS-CoV-2 du monde entier pour mieux comprendre la cinétique des mutations survenant dans les génomes viraux. Ces 59 541 génomes ont été regroupés par mois (janvier 2020 à mars 2021) en fonction de la date de collecte. La méta-analyse de ces données nous a conduit à identifier des mutations significatives dans les génomes viraux. La corrélation de Pearson de ces mutations nous a conduit à l'identification de 16 comutations. Parmi ces mutations, il a été démontré que certaines des mutations individuelles contribuaient à la réplication virale et à la forme physique, suggérant un rôle possible d'autres mutations inexplorées dans l'évolution virale. Nous avons observé que les mutations 241C>T dans la région 5' non traduite (UTR), 3037C >T dans nsp3, 14408C >T dans l'ARN polymérase ARN-dépendante (RdRp) et 23403A>G dans spike sont corrélées entre elles et ont été regroupées en un seul cluster par regroupement hiérarchique. Ces mutations ont remplacé les nucléotides de type sauvage dans les séquences du SARS-CoV-2. De plus, nous avons utilisé une série d'outils de calcul pour étudier les effets des mutations T85I (1059C >T), P323L (14408C >T) et Q57H (25563G >T) dans nsp2, RdRp et la protéine ORF3a du SRAS-CoV-2, respectivement. Nous avons observé que les mutations T85I et Q57H ont tendance à être délétères et à déstabiliser la protéine de type sauvage respective, tandis que P323L dans RdRp a tendance à être neutre et a un effet stabilisateur. IMPORTANCE Nous avons effectué une méta-analyse sur les génomes du SRAS-CoV-2 classés par mois de collecte et identifié plusieurs mutations significatives. L'analyse de corrélation de Pearson de ces mutations significatives a identifié 16 comutations ayant des coefficients de corrélation absolus >0,4 et une fréquence >30 % dans les génomes utilisés dans cette étude. Les résultats de corrélation ont ensuite été validés par un autre outil statistique appelé regroupement hiérarchique, où les mutations ont été regroupées en grappes sur la base de leur similitude. Nous avons identifié plusieurs corrélations positives et négatives entre les comutations dans les isolats de SRAS-CoV-2 du monde entier qui pourraient contribuer à la pathogenèse virale. Les corrélations négatives entre certaines des mutations du SRAS-CoV-2 identifiées dans cette étude justifient des investigations plus approfondies. Une analyse plus approfondie des mutations telles que T85I dans nsp2 et Q57H dans la protéine ORF3a a révélé que ces mutations ont tendance à déstabiliser la protéine par rapport au type sauvage, alors que P323L dans RdRp est neutre et a un effet stabilisant. Ainsi, nous avons identifié plusieurs comutations qui peuvent être davantage caractérisées pour mieux comprendre l'évolution du SRAS-CoV-2.Translated Description (Spanish)
Los esfuerzos de la comunidad científica para domar la reciente pandemia causada por el coronavirus 2 del síndrome respiratorio agudo severo (SARS-CoV-2) parecen haberse diluido por la aparición de nuevas cepas virales. Por lo tanto, es imperativo comprender el efecto de las mutaciones en la evolución viral. Realizamos un análisis de series temporales en 59.541 secuencias genómicas del SARS-CoV-2 de todo el mundo para obtener información sobre la cinética de las mutaciones que surgen en los genomas virales. Estos 59.541 genomas se agruparon por mes (enero de 2020 a marzo de 2021) en función de la fecha de recogida. El metanálisis de estos datos nos llevó a identificar mutaciones significativas en los genomas virales. La correlación de Pearson de estas mutaciones nos llevó a la identificación de 16 mutaciones. Entre estas mutaciones, se ha demostrado que algunas de las mutaciones individuales contribuyen a la replicación viral y la aptitud, lo que sugiere un posible papel de otras mutaciones inexploradas en la evolución viral. Observamos que las mutaciones 241C>T en la región 5' no traducida (UTR), 3037C>T en nsp3, 14408C>T en la ARN polimerasa dependiente de ARN (RdRp) y 23403A>G en el pico están correlacionadas entre sí y se agruparon en un solo grupo por agrupación jerárquica. Estas mutaciones han reemplazado a los nucleótidos de tipo salvaje en las secuencias del SARS-CoV-2. Además, empleamos un conjunto de herramientas computacionales para investigar los efectos de las mutaciones T85I (1059C >T), P323L (14408C >T) y Q57H (25563G >T) en nsp2, RdRp y la proteína ORF3a del SARS-CoV-2, respectivamente. Observamos que las mutaciones T85I y Q57H tienden a ser perjudiciales y desestabilizan la proteína de tipo salvaje respectiva, mientras que P323L en RdRp tiende a ser neutral y tiene un efecto estabilizador. IMPORTANCIA Realizamos un metanálisis de los genomas del SARS-CoV-2 clasificados por mes de recolección e identificamos varias mutaciones significativas. El análisis de correlación de Pearson de estas mutaciones significativas identificó 16 mutaciones que tenían coeficientes de correlación absolutos de >0.4 y una frecuencia de >30% en los genomas utilizados en este estudio. Los resultados de la correlación fueron validados por otra herramienta estadística llamada agrupación jerárquica, donde las mutaciones se agruparon en grupos en función de su similitud. Identificamos varias correlaciones positivas y negativas entre las mutaciones en aislados de SARS-CoV-2 de todo el mundo que podrían contribuir a la patogénesis viral. Las correlaciones negativas entre algunas de las mutaciones en el SARS-CoV-2 identificadas en este estudio justifican investigaciones adicionales. Un análisis adicional de mutaciones como T85I en nsp2 y Q57H en la proteína ORF3a reveló que estas mutaciones tienden a desestabilizar la proteína en relación con el tipo salvaje, mientras que P323L en RdRp es neutro y tiene un efecto estabilizador. Por lo tanto, hemos identificado varias mutaciones que se pueden caracterizar aún más para obtener información sobre la evolución del SARS-CoV-2.Files
2022.04.05.487114.full.pdf.pdf
Files
(5.7 MB)
Name | Size | Download all |
---|---|---|
md5:f839da5da20676d9d509a20b37c1ed9f
|
5.7 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحليل السلاسل الزمنية لجينومات فيروس كورونا 2 المرتبط بمتلازمة الجهاز التنفسي الحادة الوخيمة والارتباطات بين الطفرات شديدة الانتشار
- Translated title (French)
- Analyse chronologique des génomes du SRAS-CoV-2 et des corrélations entre les mutations hautement prévalentes
- Translated title (Spanish)
- Análisis de series temporales de genomas de SARS-CoV-2 y correlaciones entre mutaciones altamente prevalentes
Identifiers
- Other
- https://openalex.org/W4294917736
- DOI
- 10.1128/spectrum.01219-22
References
- https://openalex.org/W190626844
- https://openalex.org/W1982559408
- https://openalex.org/W1993250943
- https://openalex.org/W1997713382
- https://openalex.org/W2001039644
- https://openalex.org/W2016855491
- https://openalex.org/W2021210077
- https://openalex.org/W2029118067
- https://openalex.org/W2060197609
- https://openalex.org/W2062398034
- https://openalex.org/W2064095494
- https://openalex.org/W2064488723
- https://openalex.org/W2069197202
- https://openalex.org/W2088294895
- https://openalex.org/W2090264443
- https://openalex.org/W2097758424
- https://openalex.org/W2103459989
- https://openalex.org/W2113971181
- https://openalex.org/W2117455984
- https://openalex.org/W2138436490
- https://openalex.org/W2140669928
- https://openalex.org/W2149580316
- https://openalex.org/W2150112131
- https://openalex.org/W2324848479
- https://openalex.org/W2339183089
- https://openalex.org/W2566883605
- https://openalex.org/W2766720172
- https://openalex.org/W2777914188
- https://openalex.org/W2785797662
- https://openalex.org/W2801491392
- https://openalex.org/W2892113269
- https://openalex.org/W2905107300
- https://openalex.org/W2951264695
- https://openalex.org/W3015429854
- https://openalex.org/W3015901070
- https://openalex.org/W3017680297
- https://openalex.org/W3021365959
- https://openalex.org/W3022285953
- https://openalex.org/W3022435472
- https://openalex.org/W3036178624
- https://openalex.org/W3039798227
- https://openalex.org/W3039901154
- https://openalex.org/W3043112513
- https://openalex.org/W3087615546
- https://openalex.org/W3089992403
- https://openalex.org/W3092136311
- https://openalex.org/W3096967708
- https://openalex.org/W3103145119
- https://openalex.org/W3104955345
- https://openalex.org/W3111521480
- https://openalex.org/W3113500440
- https://openalex.org/W3119533938
- https://openalex.org/W3124134442
- https://openalex.org/W3125449091
- https://openalex.org/W3129829341
- https://openalex.org/W3133640664
- https://openalex.org/W3138402636
- https://openalex.org/W3138419754
- https://openalex.org/W3143532022
- https://openalex.org/W3161711259
- https://openalex.org/W3168384292
- https://openalex.org/W3173231397
- https://openalex.org/W3177131547
- https://openalex.org/W3177306668
- https://openalex.org/W3177446765
- https://openalex.org/W3179692152
- https://openalex.org/W3181937414
- https://openalex.org/W3186179742
- https://openalex.org/W3193295667
- https://openalex.org/W3203433659
- https://openalex.org/W3206826420
- https://openalex.org/W3211827836
- https://openalex.org/W3213738629
- https://openalex.org/W4200394432
- https://openalex.org/W4200469371
- https://openalex.org/W4205094401
- https://openalex.org/W4205261236
- https://openalex.org/W4210365826
- https://openalex.org/W4283207765