Published January 16, 2015 | Version v1
Publication Open

A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads

  • 1. Ho Chi Minh City University of Technology
  • 2. Vietnam Academy of Science and Technology

Description

Metagenomics is the study of genetic materials derived directly from complex microbial samples, instead of from culture. One of the crucial steps in metagenomic analysis, referred to as "binning", is to separate reads into clusters that represent genomes from closely related organisms. Among the existing binning methods, unsupervised methods base the classification on features extracted from reads, and especially taking advantage in case of the limitation of reference database availability. However, their performance, under various aspects, is still being investigated by recent theoretical and empirical studies. The one addressed in this paper is among those efforts to enhance the accuracy of the classification.This paper presents an unsupervised algorithm, called BiMeta, for binning of reads from different species in a metagenomic dataset. The algorithm consists of two phases. In the first phase of the algorithm, reads are grouped into groups based on overlap information between the reads. The second phase merges the groups by using an observation on l-mer frequency distribution of sets of non-overlapping reads. The experimental results on simulated and real datasets showed that BiMeta outperforms three state-of-the-art binning algorithms for both short and long reads (≥700 b p) datasets.This paper developed a novel and efficient algorithm for binning of metagenomic reads, which does not require any reference database. The software implementing the algorithm and all test datasets mentioned in this paper can be downloaded at http://it.hcmute.edu.vn/bioinfo/bimeta/index.htm.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

Metagenomics هي دراسة المواد الوراثية المشتقة مباشرة من العينات الميكروبية المعقدة، بدلاً من الثقافة. تتمثل إحدى الخطوات الحاسمة في التحليل ما وراء الجينومي، والتي يشار إليها باسم "التعبئة"، في فصل القراءات إلى مجموعات تمثل الجينوم من الكائنات الحية ذات الصلة الوثيقة. من بين طرق التعبئة الحالية، تستند الطرق غير الخاضعة للإشراف إلى التصنيف على الميزات المستخرجة من القراءات، والاستفادة بشكل خاص في حالة الحد من توافر قاعدة البيانات المرجعية. ومع ذلك، لا يزال يتم التحقيق في أدائها، في إطار جوانب مختلفة، من خلال الدراسات النظرية والتجريبية الحديثة. إن الورقة التي تتناولها هذه الورقة هي من بين تلك الجهود المبذولة لتعزيز دقة التصنيف. تقدم هذه الورقة خوارزمية غير خاضعة للإشراف، تسمى BiMeta، لوضع القراءات من أنواع مختلفة في مجموعة بيانات ميتاجينية. تتكون الخوارزمية من مرحلتين. في المرحلة الأولى من الخوارزمية، يتم تجميع القراءات في مجموعات بناءً على معلومات التداخل بين القراءات. تدمج المرحلة الثانية المجموعات باستخدام ملاحظة حول توزيع التردد لمجموعات من القراءات غير المتداخلة. أظهرت النتائج التجريبية على مجموعات البيانات المحاكية والحقيقية أن BiMeta يتفوق على ثلاث خوارزميات متطورة للقراءات القصيرة والطويلة (≥700 b p). طورت هذه الورقة خوارزمية جديدة وفعالة لقراءة القراءات الميتاجينية، والتي لا تتطلب أي قاعدة بيانات مرجعية. يمكن تنزيل البرنامج الذي ينفذ الخوارزمية وجميع مجموعات بيانات الاختبار المذكورة في هذه الورقة على http://it.hcmute.edu.vn/bioinfo/bimeta/index.htm.

Translated Description (French)

La métagénomique est l'étude du matériel génétique dérivé directement d'échantillons microbiens complexes, au lieu de la culture. L'une des étapes cruciales de l'analyse métagénomique, appelée « binning », consiste à séparer les lectures en grappes qui représentent les génomes d'organismes étroitement apparentés. Parmi les méthodes de binning existantes, les méthodes non supervisées basent la classification sur les fonctionnalités extraites des lectures, et notamment en tirant parti en cas de limitation de la disponibilité de la base de données de référence. Cependant, leurs performances, sous divers aspects, sont encore étudiées par des études théoriques et empiriques récentes. Celui abordé dans cet article fait partie de ces efforts visant à améliorer la précision de la classification. Cet article présente un algorithme non supervisé, appelé BiMeta, pour le regroupement des lectures de différentes espèces dans un ensemble de données métagénomiques. L'algorithme se compose de deux phases. Dans la première phase de l'algorithme, les lectures sont regroupées en groupes sur la base d'informations de chevauchement entre les lectures. La deuxième phase fusionne les groupes en utilisant une observation sur la distribution de fréquence l-mer des ensembles de lectures non chevauchantes. Les résultats expérimentaux sur des ensembles de données simulés et réels ont montré que BiMeta surpasse trois algorithmes de binning de pointe pour les ensembles de données de lectures courtes et longues (≥700 b p). Cet article a développé un nouvel algorithme efficace pour le binning des lectures métagénomiques, qui ne nécessite aucune base de données de référence. Le logiciel mettant en œuvre l'algorithme et tous les ensembles de données de test mentionnés dans cet article peuvent être téléchargés sur http://it.hcmute.edu.vn/bioinfo/bimeta/index.htm.

Translated Description (Spanish)

La metagenómica es el estudio de materiales genéticos derivados directamente de muestras microbianas complejas, en lugar de del cultivo. Uno de los pasos cruciales en el análisis metagenómico, denominado "agrupamiento", es separar las lecturas en grupos que representan genomas de organismos estrechamente relacionados. Entre los métodos de binning existentes, los métodos no supervisados basan la clasificación en características extraídas de las lecturas, y especialmente en el caso de la limitación de la disponibilidad de la base de datos de referencia. Sin embargo, su desempeño, bajo diversos aspectos, aún está siendo investigado por estudios teóricos y empíricos recientes. El que se aborda en este documento se encuentra entre los esfuerzos para mejorar la precisión de la clasificación. Este documento presenta un algoritmo no supervisado, llamado BiMeta, para el agrupamiento de lecturas de diferentes especies en un conjunto de datos metagenómicos. El algoritmo consta de dos fases. En la primera fase del algoritmo, las lecturas se agrupan en grupos en función de la información de superposición entre las lecturas. La segunda fase fusiona los grupos mediante el uso de una distribución de frecuencias l-mer de conjuntos de lecturas no superpuestas. Los resultados experimentales en conjuntos de datos simulados y reales mostraron que BiMeta supera a tres algoritmos de binning de última generación para conjuntos de datos de lecturas cortas y largas (≥700 b p). Este documento desarrolló un algoritmo novedoso y eficiente para el binning de lecturas metagenómicas, que no requiere ninguna base de datos de referencia. El software que implementa el algoritmo y todos los conjuntos de datos de prueba mencionados en este documento se pueden descargar en http://it.hcmute.edu.vn/bioinfo/bimeta/index.htm.

Files

s13015-014-0030-4.pdf

Files (801.5 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:0b8c068c647ae6dac5562d01e917441c
801.5 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
خوارزمية تعبئة على مرحلتين باستخدام تردد l - mer على مجموعات من القراءات غير المتداخلة
Translated title (French)
Un algorithme de binning à deux phases utilisant la fréquence l-mer sur des groupes de lectures non chevauchantes
Translated title (Spanish)
Un algoritmo de agrupación de dos fases que utiliza la frecuencia l-mer en grupos de lecturas no superpuestas

Identifiers

Other
https://openalex.org/W2137604316
DOI
10.1186/s13015-014-0030-4

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1565050238
  • https://openalex.org/W1638339887
  • https://openalex.org/W1997673861
  • https://openalex.org/W2006465310
  • https://openalex.org/W2020069326
  • https://openalex.org/W2021380741
  • https://openalex.org/W2029437806
  • https://openalex.org/W2048818637
  • https://openalex.org/W2061680337
  • https://openalex.org/W2082203850
  • https://openalex.org/W2097160089
  • https://openalex.org/W2106651224
  • https://openalex.org/W2112888758
  • https://openalex.org/W2113601822
  • https://openalex.org/W2116895571
  • https://openalex.org/W2120048439
  • https://openalex.org/W2122646534
  • https://openalex.org/W2124637227
  • https://openalex.org/W2125826054
  • https://openalex.org/W2131988453
  • https://openalex.org/W2135780060
  • https://openalex.org/W2139436782
  • https://openalex.org/W2140604849
  • https://openalex.org/W2144467924
  • https://openalex.org/W2150208009
  • https://openalex.org/W2150593711
  • https://openalex.org/W2155563453
  • https://openalex.org/W2156995746
  • https://openalex.org/W2157107905
  • https://openalex.org/W2162039942
  • https://openalex.org/W2162210683
  • https://openalex.org/W2487925669