Published May 24, 2023 | Version v1
Publication

minSNPs: an R package for the derivation of resolution-optimised SNP sets from microbial genomic data

  • 1. Charles Darwin University
  • 2. Menzies School of Health Research
  • 3. Mahidol Oxford Tropical Medicine Research Unit
  • 4. Mahidol University
  • 5. University of Oxford

Description

Here, we present the R package, minSNPs. This is a re-development of a previously described Java application named Minimum SNPs. MinSNPs assembles resolution-optimised sets of single nucleotide polymorphisms (SNPs) from sequence alignments such as genome-wide orthologous SNP matrices. MinSNPs can derive sets of SNPs optimised for discriminating any user-defined combination of sequences from all others. Alternatively, SNP sets may be optimised to determine all sequences from all other sequences, i.e., to maximise diversity. MinSNPs encompasses functions that facilitate rapid and flexible SNP mining, and clear and comprehensive presentation of the results. The minSNPs' running time scales in a linear fashion with input data volume and the numbers of SNPs and SNPs sets specified in the output. MinSNPs was tested using a previously reported orthologous SNP matrix of Staphylococcus aureus and an orthologous SNP matrix of 3,279 genomes with 164,335 SNPs assembled from four S. aureus short read genomic data sets. MinSNPs was shown to be effective for deriving discriminatory SNP sets for potential surveillance targets and in identifying SNP sets optimised to discriminate isolates from different clonal complexes. MinSNPs was also tested with a large Plasmodium vivax orthologous SNP matrix. A set of five SNPs was derived that reliably indicated the country of origin within three south-east Asian countries. In summary, we report the capacity to assemble comprehensive SNP matrices that effectively capture microbial genomic diversity, and to rapidly and flexibly mine these entities for optimised marker sets.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

هنا، نقدم حزمة R، minSNPs. هذا هو إعادة تطوير تطبيق جافا الموصوف سابقًا المسمى الحد الأدنى من SNPs. تجمع MinSNPs مجموعات محسنة الدقة من الأشكال المتعددة للنيوكليوتيدات المفردة (SNPs) من محاذاة التسلسل مثل مصفوفات SNP التقويمية على مستوى الجينوم. يمكن أن تستمد MinSNPs مجموعات من SNPs المحسنة لتمييز أي مجموعة من التسلسلات التي يحددها المستخدم عن جميع التسلسلات الأخرى. بدلاً من ذلك، يمكن تحسين مجموعات SNP لتحديد جميع التسلسلات من جميع التسلسلات الأخرى، أي لتحقيق أقصى قدر من التنوع. تشمل MinSNPs الوظائف التي تسهل التعدين السريع والمرن لـ SNP، والعرض الواضح والشامل للنتائج. يقيس وقت تشغيل minSNPs بطريقة خطية مع حجم بيانات الإدخال وأعداد مجموعات SNPs و SNPs المحددة في الإخراج. تم اختبار MinSNPs باستخدام مصفوفة SNP تقويمية تم الإبلاغ عنها سابقًا من المكورات العنقودية الذهبية ومصفوفة SNP تقويمية من 3279 جينوم مع 164،335 SNPs تم تجميعها من أربع مجموعات بيانات جينومية قصيرة القراءة من S. aureus. تبين أن MinSNPs فعالة في اشتقاق مجموعات SNP التمييزية لأهداف المراقبة المحتملة وفي تحديد مجموعات SNP المحسنة لتمييز العزلات من المجمعات النسيجية المختلفة. كما تم اختبار MinSNPs باستخدام مصفوفة SNP كبيرة من Plasmodium vivax orthologous. تم اشتقاق مجموعة من خمسة تقاطعات وطنية معيارية تشير بشكل موثوق إلى بلد المنشأ داخل ثلاثة بلدان في جنوب شرق آسيا. باختصار، نبلغ عن القدرة على تجميع مصفوفات SNP الشاملة التي تلتقط التنوع الجيني الميكروبي بفعالية، واستخراج هذه الكيانات بسرعة ومرونة للحصول على مجموعات علامات محسنة.

Translated Description (French)

Ici, nous présentons le package R, minSNPs. Il s'agit d'un redéveloppement d'une application Java précédemment décrite appelée SNP minimum. MinSNPs assemble des ensembles de polymorphismes mononucléotidiques (SNP) optimisés pour la résolution à partir d'alignements de séquences tels que des matrices SNP orthologues à l'échelle du génome. Les MinSNP peuvent dériver des ensembles de SNP optimisés pour discriminer toute combinaison de séquences définie par l'utilisateur de toutes les autres. Alternativement, les ensembles SNP peuvent être optimisés pour déterminer toutes les séquences à partir de toutes les autres séquences, c'est-à-dire pour maximiser la diversité. Les MinSNP englobent des fonctions qui facilitent l'extraction rapide et flexible des SNP, et une présentation claire et complète des résultats. Le temps de fonctionnement des minSNP s'échelonne de manière linéaire avec le volume de données d'entrée et le nombre de SNP et d'ensembles de SNP spécifiés dans la sortie. MinSNPs a été testé en utilisant une matrice SNP orthologue précédemment rapportée de Staphylococcus aureus et une matrice SNP orthologue de 3 279 génomes avec 164 335 SNP assemblés à partir de quatre ensembles de données génomiques à lecture courte de S. aureus. Les MinSNP se sont révélés efficaces pour dériver des ensembles de SNP discriminatoires pour des cibles de surveillance potentielles et pour identifier des ensembles de SNP optimisés pour discriminer les isolats de différents complexes clonaux. Les MinSNP ont également été testés avec une grande matrice de SNP orthologue de Plasmodium vivax. Un ensemble de cinq SNP a été dérivé qui indiquait de manière fiable le pays d'origine dans trois pays d'Asie du Sud-Est. En résumé, nous rapportons la capacité d'assembler des matrices SNP complètes qui capturent efficacement la diversité génomique microbienne, et d'exploiter rapidement et de manière flexible ces entités pour des ensembles de marqueurs optimisés.

Translated Description (Spanish)

Aquí, presentamos el paquete R, minSNPs. Este es un redesarrollo de una aplicación Java descrita anteriormente llamada Minimum SNPs. Los MinSNP ensamblan conjuntos optimizados para la resolución de polimorfismos de un solo nucleótido (SNP) a partir de alineamientos de secuencias, como matrices de SNP ortólogos de todo el genoma. Los MinSNP pueden derivar conjuntos de SNP optimizados para discriminar cualquier combinación de secuencias definida por el usuario de todas las demás. Alternativamente, los conjuntos de SNP pueden optimizarse para determinar todas las secuencias de todas las demás secuencias, es decir, para maximizar la diversidad. MinSNPs abarca funciones que facilitan la extracción rápida y flexible de SNP, y la presentación clara y completa de los resultados. Las escalas de tiempo de ejecución de los minSNP de forma lineal con el volumen de datos de entrada y los números de SNP y conjuntos de SNP especificados en la salida. Los MinSNP se probaron utilizando una matriz de SNP ortólogo previamente informada de Staphylococcus aureus y una matriz de SNP ortólogo de 3.279 genomas con 164.335 SNP ensamblados a partir de cuatro conjuntos de datos genómicos de lectura corta de S. aureus. Se demostró que los MinSNP son efectivos para derivar conjuntos de SNP discriminatorios para posibles objetivos de vigilancia y para identificar conjuntos de SNP optimizados para discriminar aislados de diferentes complejos clonales. MinSNPs también se probó con una gran matriz de SNP ortólogo de Plasmodium vivax. Se derivó un conjunto de cinco SNP que indicaban de forma fiable el país de origen dentro de tres países del sudeste asiático. En resumen, informamos sobre la capacidad de ensamblar matrices SNP integrales que capturen de manera efectiva la diversidad genómica microbiana y de extraer estas entidades de manera rápida y flexible para obtener conjuntos de marcadores optimizados.

Additional details

Additional titles

Translated title (Arabic)
minSNPs: حزمة R لاشتقاق مجموعات SNP المحسنة الدقة من البيانات الجينية الميكروبية
Translated title (French)
minSNPs : un package R pour la dérivation d'ensembles SNP à résolution optimisée à partir de données génomiques microbiennes
Translated title (Spanish)
minSNPs: un paquete R para la derivación de conjuntos de SNP con resolución optimizada a partir de datos genómicos microbianos

Identifiers

Other
https://openalex.org/W4377986557
DOI
10.7717/peerj.15339

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W1996711977
  • https://openalex.org/W2022200628
  • https://openalex.org/W2030385422
  • https://openalex.org/W2046108714
  • https://openalex.org/W2106474372
  • https://openalex.org/W2139809552
  • https://openalex.org/W2149992227
  • https://openalex.org/W2342497815
  • https://openalex.org/W2782326402
  • https://openalex.org/W2799813956
  • https://openalex.org/W2811182143
  • https://openalex.org/W2900501296
  • https://openalex.org/W3005720903
  • https://openalex.org/W3044146302
  • https://openalex.org/W3092614744
  • https://openalex.org/W3094537442
  • https://openalex.org/W3110652187
  • https://openalex.org/W3111672821
  • https://openalex.org/W3127199994
  • https://openalex.org/W3135713334
  • https://openalex.org/W3137672435
  • https://openalex.org/W3191429989
  • https://openalex.org/W3208107712
  • https://openalex.org/W4206076853
  • https://openalex.org/W4224139973
  • https://openalex.org/W4282945384
  • https://openalex.org/W4312211913