KITSUNE: A Tool for Identifying Empirically Optimal K-mer Length for Alignment-Free Phylogenomic Analysis
Creators
- 1. Chulalongkorn University
- 2. University of Arkansas for Medical Sciences
- 3. University of Arkansas at Little Rock
- 4. National Science and Technology Development Agency
- 5. National Center for Genetic Engineering and Biotechnology
Description
Genomic DNA is the best "unique identifier" for organisms. Alignment-free phylogenomic analysis, simple, fast, and efficient method to compare genome sequences, relies on looking at the distribution of small DNA sequence of a particular length, referred to as k-mer. The k-mer approach has been explored as a basis for sequence analysis applications, including assembly, phylogenetic tree inference, and classification. Although this approach is not novel, selecting the appropriate k-mer length to obtain the optimal resolution is rather arbitrary. However, it is a very important parameter for achieving the appropriate resolution for genome/sequence distances to infer biologically meaningful phylogenetic relationships. Thus, there is a need for a systematic approach to identify the appropriate k-mer from whole-genome sequences. We present KITSUNE, a tool for assessing the empirically optimal k-mer length of any given set of genomes of interest for phylogenomic analysis via a 3-step approach based on (1) cumulative relative entropy (CRE), (2) average number of common features (ACF), and (3) observed common features (OCF). Using KITSUNE, we demonstrated the feasibility and reliability of these measurements to obtain empirically optimal k-mer lengths of 11, 17, and ~34 from large genome datasets of viruses, bacteria, and fungi, respectively. Moreover, we demonstrated a feature of KITSUNE for accurate species identification for the two de novo assembled bacterial genomes derived from error-prone long-reads sequences, and for a published yeast genome. In addition, KITSUNE was used to identify the shortest species-specific k-mer accurately identifying viruses. KITSUNE is freely available at https://github.com/natapol/kitsune/tree/master/kitsune.
Translated Descriptions
Translated Description (Arabic)
الحمض النووي الجيني هو أفضل "معرف فريد" للكائنات الحية. يعتمد التحليل الجيني العرقي الخالي من المحاذاة، وهو طريقة بسيطة وسريعة وفعالة لمقارنة تسلسلات الجينوم، على النظر في توزيع تسلسل الحمض النووي الصغير بطول معين، يشار إليه باسم k - mer. تم استكشاف نهج k - mer كأساس لتطبيقات تحليل التسلسل، بما في ذلك التجميع، واستدلال شجرة التطور، والتصنيف. على الرغم من أن هذا النهج ليس جديدًا، إلا أن اختيار طول k - mer المناسب للحصول على الدقة المثلى أمر تعسفي إلى حد ما. ومع ذلك، فهي معلمة مهمة للغاية لتحقيق الدقة المناسبة لمسافات الجينوم/التسلسل لاستنتاج العلاقات الوراثية ذات المغزى البيولوجي. وبالتالي، هناك حاجة إلى نهج منهجي لتحديد k - mer المناسب من تسلسلات الجينوم الكامل. نقدم KITSUNE، وهي أداة لتقييم طول k - mer الأمثل تجريبيًا لأي مجموعة معينة من الجينومات ذات الأهمية للتحليل الجيني عبر نهج من 3 خطوات يعتمد على (1) الانتروبيا النسبية التراكمية (CRE)، (2) متوسط عدد السمات المشتركة (ACF)، و (3) السمات المشتركة المرصودة (OCF). باستخدام KITSUNE، أظهرنا جدوى وموثوقية هذه القياسات للحصول على أطوال k - mer المثلى تجريبيًا من 11 و 17 و ~34 من مجموعات بيانات الجينوم الكبيرة من الفيروسات والبكتيريا والفطريات، على التوالي. علاوة على ذلك، أظهرنا سمة من سمات KITSUNE لتحديد الأنواع بدقة لاثنين من الجينومات البكتيرية المجمعة من جديد المستمدة من تسلسلات القراءة الطويلة المعرضة للخطأ، ولجينوم الخميرة المنشور. بالإضافة إلى ذلك، تم استخدام KITSUNE لتحديد أقصر أنواع K - mer التي تحدد الفيروسات بدقة. KITSUNE متاح مجانًا على https://github.com/natapol/kitsune/tree/master/kitsune.Translated Description (French)
L'ADN génomique est le meilleur « identifiant unique » pour les organismes. L'analyse phylogénomique sans alignement, méthode simple, rapide et efficace pour comparer les séquences du génome, repose sur l'examen de la distribution d'une petite séquence d'ADN d'une longueur particulière, appelée k-mer. L'approche k-mer a été explorée comme base pour les applications d'analyse de séquence, y compris l'assemblage, l'inférence d'arbre phylogénétique et la classification. Bien que cette approche ne soit pas nouvelle, la sélection de la longueur k-mer appropriée pour obtenir la résolution optimale est plutôt arbitraire. Cependant, c'est un paramètre très important pour atteindre la résolution appropriée pour les distances génome/séquence afin d'inférer des relations phylogénétiques biologiquement significatives. Ainsi, il est nécessaire d'adopter une approche systématique pour identifier le k-mer approprié à partir des séquences du génome entier. Nous présentons KITSUNE, un outil permettant d'évaluer la longueur k-mer empiriquement optimale de tout ensemble donné de génomes d'intérêt pour l'analyse phylogénomique via une approche en 3 étapes basée sur (1) l'entropie relative cumulative (CRE), (2) le nombre moyen de caractéristiques communes (ACF) et (3) les caractéristiques communes observées (OCF). En utilisant KITSUNE, nous avons démontré la faisabilité et la fiabilité de ces mesures pour obtenir des longueurs de k-mer empiriquement optimales de 11, 17 et ~34 à partir de grands ensembles de données génomiques de virus, de bactéries et de champignons, respectivement. De plus, nous avons démontré une caractéristique de KITSUNE pour l'identification précise des espèces pour les deux génomes bactériens assemblés de novo dérivés de séquences à longues lectures sujettes aux erreurs, et pour un génome de levure publié. En outre, KITSUNE a été utilisé pour identifier le k-mer spécifique à l'espèce la plus courte identifiant avec précision les virus. KITSUNE est disponible gratuitement sur https://github.com/natapol/kitsune/tree/master/kitsune.Translated Description (Spanish)
El ADN genómico es el mejor "identificador único" para los organismos. El análisis filogenómico sin alineación, método simple, rápido y eficiente para comparar secuencias genómicas, se basa en observar la distribución de una secuencia de ADN pequeña de una longitud particular, denominada k-mer. El enfoque k-mer se ha explorado como base para aplicaciones de análisis de secuencias, incluido el ensamblaje, la inferencia de árboles filogenéticos y la clasificación. Aunque este enfoque no es novedoso, seleccionar la longitud k-mer adecuada para obtener la resolución óptima es bastante arbitrario. Sin embargo, es un parámetro muy importante para lograr la resolución adecuada de las distancias genoma/secuencia para inferir relaciones filogenéticas biológicamente significativas. Por lo tanto, existe la necesidad de un enfoque sistemático para identificar el k-mero apropiado de las secuencias del genoma completo. Presentamos KITSUNE, una herramienta para evaluar la longitud k-mer empíricamente óptima de cualquier conjunto dado de genomas de interés para el análisis filogenómico a través de un enfoque de 3 pasos basado en (1) entropía relativa acumulativa (CRE), (2) número promedio de características comunes (ACF) y (3) características comunes observadas (OCF). Usando KITSUNE, demostramos la viabilidad y confiabilidad de estas mediciones para obtener longitudes k-mer empíricamente óptimas de 11, 17 y ~34 a partir de grandes conjuntos de datos genómicos de virus, bacterias y hongos, respectivamente. Además, demostramos una característica de KITSUNE para la identificación precisa de especies para los dos genomas bacterianos ensamblados de novo derivados de secuencias de lectura larga propensas a errores y para un genoma de levadura publicado. Además, KITSUNE se utilizó para identificar el k-mer específico de especie más corto que identifica con precisión los virus. KITSUNE está disponible gratuitamente en https://github.com/natapol/kitsune/tree/master/kitsune.Files
pdf.pdf
Files
(4.4 MB)
Name | Size | Download all |
---|---|---|
md5:d9b9e940f16c82cd5f6a4d819aa92658
|
4.4 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- KITSUNE: أداة لتحديد طول K - mer الأمثل تجريبيًا للتحليل الوراثي الخالي من المحاذاة
- Translated title (French)
- KITSUNE : Un outil pour identifier la longueur K-mer empiriquement optimale pour une analyse phylogénomique sans alignement
- Translated title (Spanish)
- KITSUNE: una herramienta para identificar la longitud K-mer empíricamente óptima para el análisis filogenómico sin alineación
Identifiers
- Other
- https://openalex.org/W3089125281
- DOI
- 10.3389/fbioe.2020.556413
References
- https://openalex.org/W1533146036
- https://openalex.org/W1703384511
- https://openalex.org/W1899361240
- https://openalex.org/W1967843471
- https://openalex.org/W1968363797
- https://openalex.org/W1987916789
- https://openalex.org/W2007578387
- https://openalex.org/W2055043387
- https://openalex.org/W2058731077
- https://openalex.org/W2083053974
- https://openalex.org/W2096128575
- https://openalex.org/W2111756560
- https://openalex.org/W2116412478
- https://openalex.org/W2122100630
- https://openalex.org/W2132069633
- https://openalex.org/W2139833905
- https://openalex.org/W2143420371
- https://openalex.org/W2147717514
- https://openalex.org/W2150972461
- https://openalex.org/W2153325555
- https://openalex.org/W2166834693
- https://openalex.org/W2468915207
- https://openalex.org/W2537565528
- https://openalex.org/W2574133781
- https://openalex.org/W2579012589
- https://openalex.org/W2611554670
- https://openalex.org/W2623355312
- https://openalex.org/W2734297307
- https://openalex.org/W2761430568
- https://openalex.org/W2763619987
- https://openalex.org/W2782978800
- https://openalex.org/W2788228074
- https://openalex.org/W2801702013
- https://openalex.org/W2805401775
- https://openalex.org/W2849330166
- https://openalex.org/W2889993859
- https://openalex.org/W2892078430
- https://openalex.org/W2897927784
- https://openalex.org/W2915343626
- https://openalex.org/W2929159138
- https://openalex.org/W2950150251
- https://openalex.org/W2950993016
- https://openalex.org/W2951254987
- https://openalex.org/W2962807110
- https://openalex.org/W2963607348
- https://openalex.org/W2969831762
- https://openalex.org/W2977727682
- https://openalex.org/W2990618091
- https://openalex.org/W2993937564
- https://openalex.org/W3004537174
- https://openalex.org/W3009584253
- https://openalex.org/W3015902244
- https://openalex.org/W3037797091