Alignment-free method for DNA sequence clustering using Fuzzy integral similarity
Creators
- 1. Institute of Advanced Study in Science and Technology
- 2. Tripura University
Description
Abstract A larger amount of sequence data in private and public databases produced by next-generation sequencing put new challenges due to limitation associated with the alignment-based method for sequence comparison. So, there is a high need for faster sequence analysis algorithms. In this study, we developed an alignment-free algorithm for faster sequence analysis. The novelty of our approach is the inclusion of fuzzy integral with Markov chain for sequence analysis in the alignment-free model. The method estimate the parameters of a Markov chain by considering the frequencies of occurrence of all possible nucleotide pairs from each DNA sequence. These estimated Markov chain parameters were used to calculate similarity among all pairwise combinations of DNA sequences based on a fuzzy integral algorithm. This matrix is used as an input for the neighbor program in the PHYLIP package for phylogenetic tree construction. Our method was tested on eight benchmark datasets and on in-house generated datasets (18 s rDNA sequences from 11 arbuscular mycorrhizal fungi (AMF) and 16 s rDNA sequences of 40 bacterial isolates from plant interior). The results indicate that the fuzzy integral algorithm is an efficient and feasible alignment-free method for sequence analysis on the genomic scale.
Translated Descriptions
Translated Description (Arabic)
الملخص تضع كمية أكبر من بيانات التسلسل في قواعد البيانات الخاصة والعامة التي ينتجها تسلسل الجيل التالي تحديات جديدة بسبب القيود المرتبطة بالطريقة القائمة على المحاذاة لمقارنة التسلسل. لذلك، هناك حاجة ماسة لخوارزميات تحليل التسلسل الأسرع. في هذه الدراسة، طورنا خوارزمية خالية من المحاذاة لتحليل التسلسل بشكل أسرع. تتمثل حداثة نهجنا في تضمين تكامل غامض مع سلسلة ماركوف لتحليل التسلسل في النموذج الخالي من المحاذاة. تقدر الطريقة معلمات سلسلة ماركوف من خلال النظر في ترددات حدوث جميع أزواج النيوكليوتيدات المحتملة من كل تسلسل حمض نووي. تم استخدام معلمات سلسلة ماركوف المقدرة هذه لحساب التشابه بين جميع التركيبات الزوجية لتسلسلات الحمض النووي بناءً على خوارزمية تكامل غامضة. تُستخدم هذه المصفوفة كمدخل لبرنامج الجار في حزمة PHYLIP لبناء شجرة النشوء والتطور. تم اختبار طريقتنا على ثماني مجموعات بيانات مرجعية وعلى مجموعات بيانات تم إنشاؤها داخليًا (تسلسلات الحمض النووي الريبي 18 ثانية من 11 فطريات جذرية فطرية شجرية (AMF) وتسلسلات الحمض النووي الريبي 16 ثانية من 40 عزلة بكتيرية من داخل النبات). تشير النتائج إلى أن خوارزمية التكامل الغامضة هي طريقة فعالة ومجدية خالية من المحاذاة لتحليل التسلسل على المقياس الجيني.Translated Description (French)
Résumé Une plus grande quantité de données de séquence dans les bases de données privées et publiques produites par le séquençage de nouvelle génération pose de nouveaux défis en raison des limites associées à la méthode basée sur l'alignement pour la comparaison des séquences. Il y a donc un grand besoin d'algorithmes d'analyse de séquence plus rapides. Dans cette étude, nous avons développé un algorithme sans alignement pour une analyse de séquence plus rapide. La nouveauté de notre approche est l'inclusion de l'intégrale floue avec la chaîne de Markov pour l'analyse de séquence dans le modèle sans alignement. La méthode estime les paramètres d'une chaîne de Markov en considérant les fréquences d'occurrence de toutes les paires de nucléotides possibles de chaque séquence d'ADN. Ces paramètres estimés de la chaîne de Markov ont été utilisés pour calculer la similitude entre toutes les combinaisons par paires de séquences d'ADN basées sur un algorithme d'intégrale floue. Cette matrice est utilisée comme entrée pour le programme voisin dans le package PHYLIP pour la construction d'arbres phylogénétiques. Notre méthode a été testée sur huit ensembles de données de référence et sur des ensembles de données générés en interne (séquences d'ADNr 18 s de 11 champignons mycorhiziens arbusculaires (AMF) et séquences d'ADNr 16 s de 40 isolats bactériens de l'intérieur de la plante). Les résultats indiquent que l'algorithme d'intégrale floue est une méthode efficace et réalisable sans alignement pour l'analyse de séquence à l'échelle génomique.Translated Description (Spanish)
Resumen Una mayor cantidad de datos de secuencia en bases de datos privadas y públicas producidos por la secuenciación de próxima generación plantea nuevos desafíos debido a la limitación asociada con el método basado en la alineación para la comparación de secuencias. Por lo tanto, existe una gran necesidad de algoritmos de análisis de secuencias más rápidos. En este estudio, desarrollamos un algoritmo sin alineación para un análisis de secuencias más rápido. La novedad de nuestro enfoque es la inclusión de la integral difusa con la cadena de Markov para el análisis de secuencias en el modelo sin alineación. El método estima los parámetros de una cadena de Markov considerando las frecuencias de ocurrencia de todos los pares de nucleótidos posibles de cada secuencia de ADN. Estos parámetros de cadena de Markov estimados se utilizaron para calcular la similitud entre todas las combinaciones por pares de secuencias de ADN basadas en un algoritmo de integral difusa. Esta matriz se utiliza como entrada para el programa vecino en el paquete PHYLIP para la construcción de árboles filogenéticos. Nuestro método se probó en ocho conjuntos de datos de referencia y en conjuntos de datos generados internamente (secuencias de ADNr 18 s de 11 hongos micorrízicos arbusculares (AMF) y secuencias de ADNr 16 s de 40 aislados bacterianos del interior de la planta). Los resultados indican que el algoritmo de integral difusa es un método eficiente y factible sin alineamiento para el análisis de secuencias a escala genómica.Files
      
        s41598-019-40452-6.pdf.pdf
        
      
    
    
      
        Files
         (3.3 MB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:c3b3b94febc3ac12092c3548c9394c01 | 3.3 MB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- طريقة خالية من المحاذاة لتجميع تسلسل الحمض النووي باستخدام تشابه التكامل الغامض
- Translated title (French)
- Méthode sans alignement pour le regroupement de séquences d'ADN en utilisant la similarité intégrale floue
- Translated title (Spanish)
- Método sin alineación para el agrupamiento de secuencias de ADN utilizando similitud integral difusa
Identifiers
- Other
- https://openalex.org/W2919121574
- DOI
- 10.1038/s41598-019-40452-6
            
              References
            
          
        - https://openalex.org/W1525597593
- https://openalex.org/W1539550196
- https://openalex.org/W1562379206
- https://openalex.org/W1570643690
- https://openalex.org/W1614203862
- https://openalex.org/W1967002670
- https://openalex.org/W1971239653
- https://openalex.org/W1971876518
- https://openalex.org/W1973518241
- https://openalex.org/W1975375203
- https://openalex.org/W1984107577
- https://openalex.org/W1989490811
- https://openalex.org/W1990748933
- https://openalex.org/W1997673861
- https://openalex.org/W2016017944
- https://openalex.org/W2017214689
- https://openalex.org/W2020598159
- https://openalex.org/W2023725136
- https://openalex.org/W2039491180
- https://openalex.org/W2048306783
- https://openalex.org/W2050946340
- https://openalex.org/W2060425093
- https://openalex.org/W2063581254
- https://openalex.org/W2064054988
- https://openalex.org/W2065128082
- https://openalex.org/W2068780269
- https://openalex.org/W2075907110
- https://openalex.org/W2077147110
- https://openalex.org/W2085251576
- https://openalex.org/W2095071222
- https://openalex.org/W2108079689
- https://openalex.org/W2110332627
- https://openalex.org/W2111676148
- https://openalex.org/W2112815320
- https://openalex.org/W2119488386
- https://openalex.org/W2120771433
- https://openalex.org/W2123170127
- https://openalex.org/W2141476155
- https://openalex.org/W2141865968
- https://openalex.org/W2142191074
- https://openalex.org/W2146351771
- https://openalex.org/W2150208009
- https://openalex.org/W2150774511
- https://openalex.org/W2155563453
- https://openalex.org/W2157554024
- https://openalex.org/W2160969485
- https://openalex.org/W2164698543
- https://openalex.org/W2166049232
- https://openalex.org/W2171502217
- https://openalex.org/W2171963266
- https://openalex.org/W2311203695
- https://openalex.org/W2345969517
- https://openalex.org/W2468251096
- https://openalex.org/W2523046994
- https://openalex.org/W2734297307
- https://openalex.org/W2756169797
- https://openalex.org/W2761430568
- https://openalex.org/W2950657048
- https://openalex.org/W4205647058
- https://openalex.org/W4211007335
- https://openalex.org/W4233747374
- https://openalex.org/W4245668478