Published September 25, 2021 | Version v1
Publication Open

K‐mer counting and curated libraries drive efficient annotation of repeats in plant genomes

  • 1. European Bioinformatics Institute
  • 2. Consejo Nacional de Investigaciones Científicas y Técnicas
  • 3. National Agricultural Technology Institute

Description

The annotation of repetitive sequences within plant genomes can help in the interpretation of observed phenotypes. Moreover, repeat masking is required for tasks such as whole-genome alignment, promoter analysis, or pangenome exploration. Although homology-based annotation methods are computationally expensive, k-mer strategies for masking are orders of magnitude faster. Here, we benchmarked a two-step approach, where repeats were first called by k-mer counting and then annotated by comparison to curated libraries. This hybrid protocol was tested on 20 plant genomes from Ensembl, with the k-mer-based Repeat Detector (Red) and two repeat libraries (REdat, last updated in 2013, and nrTEplants, curated for this work). Custom libraries produced by RepeatModeler were also tested. We obtained repeated genome fractions that matched those reported in the literature but with shorter repeated elements than those produced directly by sequence homology. Inspection of the masked regions that overlapped genes revealed no preference for specific protein domains. Most Red-masked sequences could be successfully classified by sequence similarity, with the complete protocol taking less than 2 h on a desktop Linux box. A guide to curating your own repeat libraries and the scripts for masking and annotating plant genomes can be obtained at https://github.com/Ensembl/plant-scripts.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يمكن أن يساعد التعليق التوضيحي للتسلسلات المتكررة داخل جينومات النبات في تفسير الأنماط الظاهرية المرصودة. علاوة على ذلك، يلزم تكرار الإخفاء لمهام مثل محاذاة الجينوم الكامل أو تحليل المروج أو استكشاف شمولية الجينوم. على الرغم من أن طرق التعليق التوضيحي القائمة على التماثل مكلفة حسابيًا، إلا أن استراتيجيات k - mer للإخفاء أسرع من حيث الحجم. هنا، قمنا بقياس نهج من خطوتين، حيث تم استدعاء التكرارات أولاً عن طريق عد k - mer ثم شرحها بالمقارنة مع المكتبات المنسقة. تم اختبار هذا البروتوكول الهجين على 20 جينوم نباتي من Ensembl، مع كاشف التكرار القائم على k - mer (RED) ومكتبتين متكررتين (REdat، آخر تحديث في عام 2013، و nrTEplants، المنسقة لهذا العمل). كما تم اختبار المكتبات المخصصة التي تنتجها RepeatModeler. حصلنا على كسور الجينوم المتكررة التي تطابق تلك التي تم الإبلاغ عنها في الأدبيات ولكن مع عناصر متكررة أقصر من تلك التي تنتج مباشرة عن طريق تماثل التسلسل. لم يكشف فحص المناطق المقنعة التي تتداخل مع الجينات عن أي تفضيل لمجالات بروتينية محددة. يمكن تصنيف معظم التسلسلات ذات القناع الأحمر بنجاح حسب تشابه التسلسل، حيث يستغرق البروتوكول الكامل أقل من ساعتين على مربع Linux المكتبي. يمكن الحصول على دليل لتنسيق المكتبات المتكررة الخاصة بك والنصوص لإخفاء الجينوم النباتي والتعليق عليه على https://github.com/Ensembl/plant-scripts.

Translated Description (French)

L'annotation des séquences répétitives au sein des génomes des plantes peut aider à l'interprétation des phénotypes observés. De plus, le masquage répété est nécessaire pour des tâches telles que l'alignement du génome entier, l'analyse du promoteur ou l'exploration du pangénome. Bien que les méthodes d'annotation basées sur l'homologie soient coûteuses en calcul, les stratégies k-mer pour le masquage sont des ordres de grandeur plus rapides. Ici, nous avons comparé une approche en deux étapes, où les répétitions étaient d'abord appelées par comptage k-mer, puis annotées par comparaison avec les bibliothèques organisées. Ce protocole hybride a été testé sur 20 génomes végétaux d'Ensembl, avec le Repeat Detector (Red) à base de k-mer et deux bibliothèques de répétitions (REdat, dernière mise à jour en 2013, et nrTEplants, curated for this work). Les bibliothèques personnalisées produites par RepeatModeler ont également été testées. Nous avons obtenu des fractions de génome répétées qui correspondaient à celles rapportées dans la littérature, mais avec des éléments répétés plus courts que ceux produits directement par homologie de séquence. L'inspection des régions masquées qui chevauchaient les gènes n'a révélé aucune préférence pour des domaines protéiques spécifiques. La plupart des séquences masquées en rouge pourraient être classées avec succès par similarité de séquence, le protocole complet prenant moins de 2 heures sur une boîte Linux de bureau. Un guide pour organiser vos propres bibliothèques de répétitions et les scripts pour masquer et annoter les génomes des plantes peuvent être obtenus sur https://github.com/Ensembl/plant-scripts.

Translated Description (Spanish)

La anotación de secuencias repetitivas dentro de los genomas de las plantas puede ayudar en la interpretación de los fenotipos observados. Además, se requiere el enmascaramiento repetido para tareas como la alineación del genoma completo, el análisis del promotor o la exploración del pangenoma. Aunque los métodos de anotación basados en homología son computacionalmente caros, las estrategias k-mer para el enmascaramiento son órdenes de magnitud más rápidas. Aquí, comparamos un enfoque de dos pasos, donde las repeticiones fueron llamadas primero por el conteo de k-mer y luego anotadas en comparación con las bibliotecas curadas. Este protocolo híbrido se probó en 20 genomas de plantas de Ensembl, con el detector de repeticiones basado en k-meros (rojo) y dos bibliotecas de repeticiones (REdat, actualizada por última vez en 2013, y nrTEplants, seleccionadas para este trabajo). También se probaron bibliotecas personalizadas producidas por RepeatModeler. Obtuvimos fracciones genómicas repetidas que coincidían con las reportadas en la literatura pero con elementos repetidos más cortos que los producidos directamente por homología de secuencia. La inspección de las regiones enmascaradas que se solapaban con los genes no reveló preferencia por dominios proteicos específicos. La mayoría de las secuencias enmascaradas en rojo podrían clasificarse con éxito por similitud de secuencia, con el protocolo completo tardando menos de 2 h en una caja Linux de escritorio. Puede obtener una guía para seleccionar sus propias bibliotecas de repeticiones y los guiones para enmascarar y anotar genomas de plantas en https://github.com/Ensembl/plant-scripts.

Files

tpg2.20143.pdf

Files (15.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:9765815b9f3bd0b893f2f4ef92c8eff8
15.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
يؤدي عد الكيلومتر والمكتبات المنسقة إلى التعليق التوضيحي الفعال للتكرارات في جينومات النبات
Translated title (French)
Le comptage K‐mer et les bibliothèques organisées permettent une annotation efficace des répétitions dans les génomes des plantes
Translated title (Spanish)
El conteo deK-mer y las bibliotecas curadas impulsan la anotación eficiente de repeticiones en los genomas de las plantas

Identifiers

Other
https://openalex.org/W3199277703
DOI
10.1002/tpg2.20143

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Argentina

References

  • https://openalex.org/W1482190741
  • https://openalex.org/W1786896381
  • https://openalex.org/W1957444659
  • https://openalex.org/W1963624291
  • https://openalex.org/W1972171731
  • https://openalex.org/W1973862547
  • https://openalex.org/W1985424385
  • https://openalex.org/W1994145712
  • https://openalex.org/W2014704298
  • https://openalex.org/W2022438258
  • https://openalex.org/W2026519705
  • https://openalex.org/W2037444377
  • https://openalex.org/W2055501640
  • https://openalex.org/W2059864757
  • https://openalex.org/W2060141463
  • https://openalex.org/W2069516109
  • https://openalex.org/W2096128575
  • https://openalex.org/W2096952033
  • https://openalex.org/W2102619694
  • https://openalex.org/W2105014867
  • https://openalex.org/W2106788283
  • https://openalex.org/W2112814753
  • https://openalex.org/W2121504310
  • https://openalex.org/W2151831732
  • https://openalex.org/W2156564520
  • https://openalex.org/W2157668348
  • https://openalex.org/W2158714788
  • https://openalex.org/W2163346964
  • https://openalex.org/W2175948239
  • https://openalex.org/W2302501749
  • https://openalex.org/W2341605457
  • https://openalex.org/W2582743722
  • https://openalex.org/W2588063017
  • https://openalex.org/W2616265326
  • https://openalex.org/W2623998041
  • https://openalex.org/W2730004793
  • https://openalex.org/W2763992281
  • https://openalex.org/W2768703572
  • https://openalex.org/W2770867583
  • https://openalex.org/W2771098038
  • https://openalex.org/W2789843538
  • https://openalex.org/W2802210059
  • https://openalex.org/W2804369212
  • https://openalex.org/W2807658503
  • https://openalex.org/W2883115691
  • https://openalex.org/W2893594925
  • https://openalex.org/W2914356973
  • https://openalex.org/W2917802935
  • https://openalex.org/W2931575838
  • https://openalex.org/W2947464213
  • https://openalex.org/W2956845796
  • https://openalex.org/W2974873635
  • https://openalex.org/W2988240595
  • https://openalex.org/W2994632914
  • https://openalex.org/W2994892085
  • https://openalex.org/W3003735828
  • https://openalex.org/W3007365321
  • https://openalex.org/W3011535982
  • https://openalex.org/W3012964617
  • https://openalex.org/W3013532268
  • https://openalex.org/W3017049640
  • https://openalex.org/W3043922729
  • https://openalex.org/W3093101461
  • https://openalex.org/W3095583226
  • https://openalex.org/W3110323992
  • https://openalex.org/W3122875603
  • https://openalex.org/W3136918052
  • https://openalex.org/W4288598642