Sequencing introduced false positive rare taxa lead to biased microbial community diversity, assembly, and interaction interpretation in amplicon studies
Creators
- 1. BGI Group (China)
- 2. Institute of Animal Sciences
- 3. Chinese Academy of Agricultural Sciences
- 4. Shandong University
- 5. University of Copenhagen
Description
Increasing studies have demonstrated potential disproportionate functional and ecological contributions of rare taxa in a microbial community. However, the study of the microbial rare biosphere is hampered by their inherent scarcity and the deficiency of currently available techniques. Sample-wise cross contaminations might be introduced by sample index misassignment in the most widely used metabarcoding amplicon sequencing approach. Although downstream bioinformatic quality control and clustering or denoising algorithms could remove sequencing errors and non-biological artifact reads, no algorithm could eliminate high quality reads from sample-wise cross contaminations introduced by index misassignment, making it difficult to distinguish between bona fide rare taxa and potential false positives in metabarcoding studies.We thoroughly evaluated the rate of index misassignment of the widely used NovaSeq 6000 and DNBSEQ-G400 sequencing platforms using both commercial and customized mock communities, and observed significant lower (0.08% vs. 5.68%) fraction of potential false positive reads for DNBSEQ-G400 as compared to NovaSeq 6000. Significant batch effects could be caused by stochastically introduced false positive or false negative rare taxa. These false detections could also lead to inflated alpha diversity of relatively simple microbial communities and underestimated that of complex ones. Further test using a set of cow rumen samples reported differential rare taxa by different sequencing platforms. Correlation analysis of the rare taxa detected by each sequencing platform demonstrated that the rare taxa identified by DNBSEQ-G400 platform had a much higher possibility to be correlated with the physiochemical properties of rumen fluid as compared to NovaSeq 6000 platform. Community assembly mechanism and microbial network correlation analysis indicated that false positive or negative rare taxa detection could lead to biased community assembly mechanism and identification of fake keystone species of the community.We highly suggest proper positive/negative/blank controls, technical replicate settings, and proper sequencing platform selection in future amplicon studies, especially when the microbial rare biosphere would be focused.
Translated Descriptions
Translated Description (Arabic)
أظهرت الدراسات المتزايدة مساهمات وظيفية وبيئية محتملة غير متناسبة للأصناف النادرة في المجتمع الميكروبي. ومع ذلك، فإن دراسة المحيط الحيوي الميكروبي النادر يعوقها ندرته المتأصلة ونقص التقنيات المتاحة حاليًا. قد يتم إدخال التلوث المتبادل للعينة عن طريق سوء تخصيص مؤشر العينة في نهج تسلسل الأمبليكون ميتاباركودينغ الأكثر استخداما على نطاق واسع. على الرغم من أن التحكم في الجودة المعلوماتية الحيوية في المصب وتجميع الخوارزميات أو إزالة التشويش يمكن أن يزيل أخطاء التسلسل وقراءات القطع الأثرية غير البيولوجية، إلا أنه لا توجد خوارزمية يمكن أن تقضي على قراءات عالية الجودة من الملوثات المتقاطعة للعينة التي تم إدخالها عن طريق سوء تعيين الفهرس، مما يجعل من الصعب التمييز بين الأصناف النادرة حسنة النية والإيجابيات الكاذبة المحتملة في دراسات ميتاباركودينج. قمنا بتقييم دقيق لمعدل سوء تخصيص الفهرس لمنصات التسلسل NovaSeq 6000 و DNBSEQ - G400 المستخدمة على نطاق واسع باستخدام كل من المجتمعات التجارية والمخصصة، ولاحظنا انخفاضًا كبيرًا (0.08 ٪ مقابل 5.68 ٪) في جزء من القراءات الإيجابية الكاذبة المحتملة لـ DNBSEQ - G400 مقارنةً بـ NovaSeq 6000. يمكن أن تحدث تأثيرات دفعية كبيرة بسبب الأصناف الإيجابية الخاطئة أو السلبية الخاطئة النادرة التي تم إدخالها عشوائيًا. يمكن أن تؤدي هذه الاكتشافات الخاطئة أيضًا إلى تضخم تنوع ألفا للمجتمعات الميكروبية البسيطة نسبيًا والتقليل من شأن المجتمعات المعقدة. تم إجراء المزيد من الاختبارات باستخدام مجموعة من عينات كرش البقر التي أبلغت عن أصناف نادرة تفاضلية بواسطة منصات تسلسل مختلفة. أظهر تحليل الارتباط للأصناف النادرة التي اكتشفتها كل منصة تسلسل أن الأصناف النادرة التي حددتها منصة DNBSEQ - G400 لديها إمكانية أكبر بكثير للارتباط بالخصائص الفيزيائية الكيميائية لسائل الكرش مقارنة بمنصة NovaSeq 6000. أشارت آلية تجميع المجتمع وتحليل ارتباط الشبكة الميكروبية إلى أن اكتشاف الأصناف النادرة الإيجابية أو السلبية الخاطئة يمكن أن يؤدي إلى آلية تجميع مجتمعية متحيزة وتحديد أنواع الأحجار الرئيسية المزيفة في المجتمع. نقترح بشدة ضوابط إيجابية/سلبية/فارغة مناسبة، وإعدادات تكرار تقنية، واختيار منصة تسلسل مناسبة في دراسات الأمبليكون المستقبلية، خاصة عندما يكون المحيط الحيوي النادر الميكروبي مركزًا.Translated Description (French)
De plus en plus d'études ont démontré des contributions fonctionnelles et écologiques potentiellement disproportionnées de taxons rares dans une communauté microbienne. Cependant, l'étude de la biosphère microbienne rare est entravée par leur rareté inhérente et la déficience des techniques actuellement disponibles. Des contaminations croisées au niveau des échantillons pourraient être introduites par une mauvaise attribution de l'indice d'échantillon dans l'approche de séquençage de l'amplicon de métabarcodage la plus largement utilisée. Bien que les algorithmes de contrôle de la qualité et de regroupement ou de débruitage bioinformatiques en aval puissent éliminer les erreurs de séquençage et les lectures d'artefacts non biologiques, aucun algorithme ne pouvait éliminer les lectures de haute qualité des contaminations croisées par échantillonnage introduites par une mauvaise attribution d'index, ce qui rendait difficile la distinction entre les taxons rares de bonne foi et les faux positifs potentiels dans les études de métabarcodage. Nous avons soigneusement évalué le taux de mauvaise attribution d'index des plates-formes de séquençage NovaSeq 6000 et DNBSEQ-G400 largement utilisées en utilisant à la fois des communautés fictives commerciales et personnalisées, et avons observé une fraction significativement plus faible (0,08 % contre 5,68 %) de lectures fausses positives potentielles pour DNBSEQ-G400 par rapport à NovaSeq 6000. Des effets de lots significatifs pourraient être causés par l'introduction stochastique de taxons rares faux positifs ou faux négatifs. Ces fausses détections pourraient également conduire à une diversité alpha gonflée de communautés microbiennes relativement simples et à une sous-estimation de celles qui sont complexes. Des tests supplémentaires utilisant un ensemble d'échantillons de rumen de vache ont rapporté des taxons rares différentiels par différentes plates-formes de séquençage. L'analyse de corrélation des taxons rares détectés par chaque plateforme de séquençage a démontré que les taxons rares identifiés par la plateforme DNBSEQ-G400 avaient une possibilité beaucoup plus élevée d'être corrélés avec les propriétés physiochimiques du liquide de rumen par rapport à la plateforme NovaSeq 6000. Le mécanisme d'assemblage de la communauté et l'analyse de corrélation du réseau microbien ont indiqué que la détection de taxons rares faux positifs ou négatifs pourrait conduire à un mécanisme d'assemblage de la communauté biaisé et à l'identification de fausses espèces clés de la communauté. Nous suggérons fortement des contrôles positifs/négatifs/blancs appropriés, des paramètres de réplication technique et une sélection appropriée de la plate-forme de séquençage dans les futures études d'amplicon, en particulier lorsque la biosphère rare microbienne serait ciblée.Translated Description (Spanish)
Cada vez más estudios han demostrado posibles contribuciones funcionales y ecológicas desproporcionadas de taxones raros en una comunidad microbiana. Sin embargo, el estudio de la biosfera rara microbiana se ve obstaculizado por su escasez inherente y la deficiencia de las técnicas disponibles actualmente. Las contaminaciones cruzadas por muestra pueden ser introducidas por la mala asignación del índice de muestra en el enfoque de secuenciación de amplicones de metabarcodificación más ampliamente utilizado. Aunque el control de calidad bioinformático posterior y los algoritmos de agrupamiento o eliminación de ruido podrían eliminar los errores de secuenciación y las lecturas de artefactos no biológicos, ningún algoritmo podría eliminar las lecturas de alta calidad de las contaminaciones cruzadas por muestra introducidas por la asignación errónea de índices, lo que dificulta la distinción entre taxones raros de buena fe y posibles falsos positivos en los estudios de metabarcodificación. Evaluamos a fondo la tasa de asignación errónea de índices de las plataformas de secuenciación NovaSeq 6000 y DNBSEQ-G400 ampliamente utilizadas utilizando comunidades simuladas comerciales y personalizadas, y observamos una fracción significativamente menor (0.08% vs. 5.68%) de lecturas potenciales de falsos positivos para DNBSEQ-G400 en comparación con NovaSeq 6000. Los efectos significativos del lote podrían ser causados por taxones raros falsos positivos o falsos negativos introducidos estocásticamente. Estas falsas detecciones también podrían conducir a una diversidad alfa inflada de comunidades microbianas relativamente simples y subestimar la de las complejas. Pruebas adicionales utilizando un conjunto de muestras de rumen de vaca informaron taxones raros diferenciales por diferentes plataformas de secuenciación. El análisis de correlación de los taxones raros detectados por cada plataforma de secuenciación demostró que los taxones raros identificados por la plataforma DNBSEQ-G400 tenían una posibilidad mucho mayor de correlacionarse con las propiedades fisicoquímicas del líquido ruminal en comparación con la plataforma NovaSeq 6000. El mecanismo de ensamblaje comunitario y el análisis de correlación de la red microbiana indicaron que la detección de taxones raros falsos positivos o negativos podría conducir a un mecanismo de ensamblaje comunitario sesgado y a la identificación de especies clave falsas de la comunidad. Sugerimos encarecidamente controles positivos/negativos/en blanco adecuados, configuraciones técnicas replicadas y una selección adecuada de la plataforma de secuenciación en futuros estudios de amplicones, especialmente cuando la biosfera rara microbiana se centraría.Files
s40793-022-00436-y.pdf
Files
(7.0 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:11b28a0738b699b38a417bf11d048ff0
|
7.0 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- قدم التسلسل تصنيفًا إيجابيًا كاذبًا نادرًا يؤدي إلى تنوع المجتمع الميكروبي المتحيز، والتجمع، وتفسير التفاعل في دراسات الأمبليكون
- Translated title (French)
- Le séquençage a introduit des taxons rares faussement positifs conduisant à une diversité, un assemblage et une interprétation de l'interaction de la communauté microbienne biaisés dans les études d'amplicon
- Translated title (Spanish)
- La secuenciación introdujo taxones raros falsos positivos que conducen a una interpretación sesgada de la diversidad, el ensamblaje y la interacción de la comunidad microbiana en los estudios de amplicones
Identifiers
- Other
- https://openalex.org/W4292093007
- DOI
- 10.1186/s40793-022-00436-y
References
- https://openalex.org/W1130588615
- https://openalex.org/W1969346416
- https://openalex.org/W2001307702
- https://openalex.org/W2007929767
- https://openalex.org/W2023324972
- https://openalex.org/W2028455084
- https://openalex.org/W2031611770
- https://openalex.org/W2061211738
- https://openalex.org/W2068381362
- https://openalex.org/W2070826422
- https://openalex.org/W2075536793
- https://openalex.org/W2087671769
- https://openalex.org/W2090454769
- https://openalex.org/W2113977541
- https://openalex.org/W2124351063
- https://openalex.org/W2125910575
- https://openalex.org/W2129769668
- https://openalex.org/W2136879569
- https://openalex.org/W2141599418
- https://openalex.org/W2150228362
- https://openalex.org/W2157107905
- https://openalex.org/W2160782896
- https://openalex.org/W2163236435
- https://openalex.org/W2164035292
- https://openalex.org/W2166171121
- https://openalex.org/W2401404581
- https://openalex.org/W2463312000
- https://openalex.org/W2538509698
- https://openalex.org/W2558664061
- https://openalex.org/W2568184332
- https://openalex.org/W2592811885
- https://openalex.org/W2593591803
- https://openalex.org/W2594785838
- https://openalex.org/W2606200318
- https://openalex.org/W2607811538
- https://openalex.org/W2763922522
- https://openalex.org/W2765747110
- https://openalex.org/W2771536675
- https://openalex.org/W2774072836
- https://openalex.org/W2787925891
- https://openalex.org/W2792400718
- https://openalex.org/W2796366405
- https://openalex.org/W2802266517
- https://openalex.org/W2808476198
- https://openalex.org/W2809519941
- https://openalex.org/W2884271268
- https://openalex.org/W2884982226
- https://openalex.org/W2888517544
- https://openalex.org/W2907520142
- https://openalex.org/W2912333112
- https://openalex.org/W2913351439
- https://openalex.org/W2943667167
- https://openalex.org/W2949796709
- https://openalex.org/W2952463830
- https://openalex.org/W2953560282
- https://openalex.org/W2980208409
- https://openalex.org/W2987140195
- https://openalex.org/W2991384446
- https://openalex.org/W3008000541
- https://openalex.org/W3016615618
- https://openalex.org/W3026313426
- https://openalex.org/W3029981522
- https://openalex.org/W3097699248
- https://openalex.org/W3106142109
- https://openalex.org/W3114500789
- https://openalex.org/W3118242934
- https://openalex.org/W3120414327
- https://openalex.org/W3126773706
- https://openalex.org/W3138536110
- https://openalex.org/W3154810354
- https://openalex.org/W3156458251
- https://openalex.org/W3162248102
- https://openalex.org/W3169250239
- https://openalex.org/W3184432465
- https://openalex.org/W3205415820