Genome-wide association data classification and SNPs selection using two-stage quality-based Random Forests
- 1. Shenzhen Institutes of Advanced Technology
- 2. Chinese Academy of Sciences
- 3. South China University of Technology
- 4. Vietnam National University of Agriculture
- 5. Shenzhen University
Description
Single-nucleotide polymorphisms (SNPs) selection and identification are the most important tasks in Genome-wide association data analysis. The problem is difficult because genome-wide association data is very high dimensional and a large portion of SNPs in the data is irrelevant to the disease. Advanced machine learning methods have been successfully used in Genome-wide association studies (GWAS) for identification of genetic variants that have relatively big effects in some common, complex diseases. Among them, the most successful one is Random Forests (RF). Despite of performing well in terms of prediction accuracy in some data sets with moderate size, RF still suffers from working in GWAS for selecting informative SNPs and building accurate prediction models. In this paper, we propose to use a new two-stage quality-based sampling method in random forests, named ts-RF, for SNP subspace selection for GWAS. The method first applies p-value assessment to find a cut-off point that separates informative and irrelevant SNPs in two groups. The informative SNPs group is further divided into two sub-groups: highly informative and weak informative SNPs. When sampling the SNP subspace for building trees for the forest, only those SNPs from the two sub-groups are taken into account. The feature subspaces always contain highly informative SNPs when used to split a node at a tree.This approach enables one to generate more accurate trees with a lower prediction error, meanwhile possibly avoiding overfitting. It allows one to detect interactions of multiple SNPs with the diseases, and to reduce the dimensionality and the amount of Genome-wide association data needed for learning the RF model. Extensive experiments on two genome-wide SNP data sets (Parkinson case-control data comprised of 408,803 SNPs and Alzheimer case-control data comprised of 380,157 SNPs) and 10 gene data sets have demonstrated that the proposed model significantly reduced prediction errors and outperformed most existing the-state-of-the-art random forests. The top 25 SNPs in Parkinson data set were identified by the proposed model including four interesting genes associated with neurological disorders.The presented approach has shown to be effective in selecting informative sub-groups of SNPs potentially associated with diseases that traditional statistical approaches might fail. The new RF works well for the data where the number of case-control objects is much smaller than the number of SNPs, which is a typical problem in gene data and GWAS. Experiment results demonstrated the effectiveness of the proposed RF model that outperformed the state-of-the-art RFs, including Breiman's RF, GRRF and wsRF methods.
Translated Descriptions
Translated Description (Arabic)
يعد اختيار وتحديد تعدد أشكال النوكليوتيدات الأحادية (SNPs) من أهم المهام في تحليل بيانات الارتباط على مستوى الجينوم. المشكلة صعبة لأن بيانات الارتباط على مستوى الجينوم عالية الأبعاد للغاية وجزء كبير من SNPs في البيانات غير ذي صلة بالمرض. تم استخدام طرق التعلم الآلي المتقدمة بنجاح في دراسات الارتباط على مستوى الجينوم (GWAS) لتحديد المتغيرات الجينية التي لها تأثيرات كبيرة نسبيًا في بعض الأمراض الشائعة والمعقدة. من بينها، أنجحها هي الغابات العشوائية (RF). على الرغم من الأداء الجيد من حيث دقة التنبؤ في بعض مجموعات البيانات ذات الحجم المعتدل، لا يزال RF يعاني من العمل في GWAS لاختيار SNPs المعلوماتية وبناء نماذج تنبؤ دقيقة. في هذه الورقة، نقترح استخدام طريقة جديدة لأخذ العينات على مرحلتين تعتمد على الجودة في الغابات العشوائية، تسمى ts - RF، لاختيار الفضاء الفرعي SNP لـ GWAS. تطبق الطريقة أولاً تقييم قيمة p للعثور على نقطة فاصلة تفصل بين SNPs المفيدة وغير ذات الصلة في مجموعتين. تنقسم مجموعة النيوكلوتايد الغنية بالمعلومات إلى مجموعتين فرعيتين: النيوكلوتايد الغنية بالمعلومات والضعيفة الغنية بالمعلومات. عند أخذ عينات من الفضاء الفرعي لـ SNP لبناء الأشجار للغابة، يتم أخذ SNPs من المجموعتين الفرعيتين فقط في الاعتبار. تحتوي المساحات الفرعية للميزة دائمًا على SNPs غنية بالمعلومات عند استخدامها لتقسيم عقدة على شجرة. يتيح هذا النهج للمرء توليد أشجار أكثر دقة مع خطأ تنبؤ أقل، وفي الوقت نفسه ربما تجنب الإفراط في التركيب. يسمح للمرء باكتشاف تفاعلات الجسيمات النانونية الدقيقة المتعددة مع الأمراض، وتقليل الأبعاد وكمية بيانات الارتباط على مستوى الجينوم اللازمة لتعلم نموذج التردد اللاسلكي. أثبتت التجارب المكثفة على مجموعتين من بيانات SNP على مستوى الجينوم (بيانات التحكم في حالة باركنسون التي تتكون من 408,803 SNPs وبيانات التحكم في حالة الزهايمر التي تتكون من 380,157 SNPs) و 10 مجموعات من بيانات الجينات أن النموذج المقترح قلل بشكل كبير من أخطاء التنبؤ وتفوق على معظم الغابات العشوائية الحالية. تم تحديد أفضل 25 نواة من النيوكلوتايد في مجموعة بيانات باركنسون من خلال النموذج المقترح بما في ذلك أربعة جينات مثيرة للاهتمام مرتبطة بالاضطرابات العصبية. وقد أظهر النهج المقدم أنه فعال في اختيار مجموعات فرعية غنية بالمعلومات من النيوكلوتايد التي يحتمل أن تكون مرتبطة بالأمراض التي قد تفشل فيها الأساليب الإحصائية التقليدية. يعمل التردد الراديوي الجديد بشكل جيد مع البيانات التي يكون فيها عدد كائنات التحكم في الحالة أقل بكثير من عدد الجسيمات النيتروجينية، وهي مشكلة نموذجية في بيانات الجينات و GWAS. أظهرت نتائج التجربة فعالية نموذج RF المقترح الذي تفوق على أحدث RFs، بما في ذلك طرق Breiman's RF و GRRF و wsRF.Translated Description (French)
La sélection et l'identification des polymorphismes mononucléotidiques (SNP) sont les tâches les plus importantes dans l'analyse des données d'association à l'échelle du génome. Le problème est difficile car les données d'association à l'échelle du génome sont très dimensionnelles et une grande partie des SNP dans les données n'est pas pertinente pour la maladie. Des méthodes avancées d'apprentissage automatique ont été utilisées avec succès dans des études d'association à l'échelle du génome (GWAS) pour l'identification de variants génétiques qui ont des effets relativement importants dans certaines maladies courantes et complexes. Parmi eux, le plus réussi est Random Forests (RF). Malgré de bonnes performances en termes de précision de prédiction dans certains ensembles de données de taille modérée, RF souffre toujours de travailler dans GWAS pour sélectionner des SNP informatifs et construire des modèles de prédiction précis. Dans cet article, nous proposons d'utiliser une nouvelle méthode d'échantillonnage basée sur la qualité en deux étapes dans les forêts aléatoires, nommée ts-RF, pour la sélection du sous-espace SNP pour GWAS. La méthode applique d'abord l'évaluation de la valeur p pour trouver un point de coupure qui sépare les SNP informatifs et non pertinents dans deux groupes. Le groupe des SNP informatifs est en outre divisé en deux sous-groupes : les SNP très informatifs et les SNP informatifs faibles. Lors de l'échantillonnage du sous-espace SNP pour la construction d'arbres pour la forêt, seuls les SNP des deux sous-groupes sont pris en compte. Les sous-espaces de caractéristiques contiennent toujours des SNP très informatifs lorsqu'ils sont utilisés pour diviser un nœud au niveau d'un arbre. Cette approche permet de générer des arbres plus précis avec une erreur de prédiction plus faible, tout en évitant éventuellement un ajustement excessif. Il permet de détecter les interactions de plusieurs SNP avec les maladies et de réduire la dimensionnalité et la quantité de données d'association à l'échelle du génome nécessaires à l'apprentissage du modèle RF. Des expériences approfondies sur deux ensembles de données SNP à l'échelle du génome (données cas-témoins de Parkinson comprenant 408 803 SNP et données cas-témoins d'Alzheimer comprenant 380 157 SNP) et 10 ensembles de données génétiques ont démontré que le modèle proposé réduisait considérablement les erreurs de prédiction et surpassait la plupart des forêts aléatoires à la pointe de la technologie. Les 25 principaux SNP de l'ensemble de données sur Parkinson ont été identifiés par le modèle proposé, y compris quatre gènes intéressants associés à des troubles neurologiques. L'approche présentée s'est révélée efficace pour sélectionner des sous-groupes informatifs de SNP potentiellement associés à des maladies que les approches statistiques traditionnelles pourraient échouer. La nouvelle RF fonctionne bien pour les données où le nombre d'objets cas-témoins est beaucoup plus petit que le nombre de SNP, ce qui est un problème typique dans les données génétiques et les GWAS. Les résultats de l'expérience ont démontré l'efficacité du modèle RF proposé qui a surpassé les RF de pointe, y compris les méthodes RF, GRRF et wsRF de Breiman.Translated Description (Spanish)
La selección e identificación de polimorfismos de un solo nucleótido (SNP) son las tareas más importantes en el análisis de datos de asociación de todo el genoma. El problema es difícil porque los datos de asociación de todo el genoma son muy dimensionales y una gran parte de los SNP en los datos son irrelevantes para la enfermedad. Los métodos avanzados de aprendizaje automático se han utilizado con éxito en estudios de asociación de todo el genoma (GWAS) para identificar variantes genéticas que tienen efectos relativamente grandes en algunas enfermedades comunes y complejas. Entre ellos, el más exitoso es Random Forests (RF). A pesar de tener un buen rendimiento en términos de precisión de predicción en algunos conjuntos de datos con un tamaño moderado, RF todavía sufre de trabajar en GWAS para seleccionar SNP informativos y construir modelos de predicción precisos. En este documento, proponemos utilizar un nuevo método de muestreo basado en la calidad de dos etapas en bosques aleatorios, denominado ts-RF, para la selección del subespacio SNP para GWAS. El método aplica primero la evaluación del valor p para encontrar un punto de corte que separe los SNP informativos e irrelevantes en dos grupos. El grupo informativo de SNP se divide en dos subgrupos: SNP altamente informativos e informativos débiles. Al muestrear el subespacio de SNP para la construcción de árboles para el bosque, solo se tienen en cuenta los SNP de los dos subgrupos. Los subespacios de características siempre contienen SNP altamente informativos cuando se usan para dividir un nodo en un árbol. Este enfoque permite generar árboles más precisos con un menor error de predicción, mientras tanto, posiblemente, evitando el sobreajuste. Permite detectar interacciones de múltiples SNP con las enfermedades y reducir la dimensionalidad y la cantidad de datos de asociación de todo el genoma necesarios para aprender el modelo de RF. Amplios experimentos en dos conjuntos de datos de SNP de todo el genoma (datos de casos y controles de Parkinson compuestos por 408,803 SNP y datos de casos y controles de Alzheimer compuestos por 380,157 SNP) y 10 conjuntos de datos de genes han demostrado que el modelo propuesto redujo significativamente los errores de predicción y superó a la mayoría de los bosques aleatorios de última generación existentes. Los 25 principales SNP en el conjunto de datos de Parkinson se identificaron mediante el modelo propuesto que incluye cuatro genes interesantes asociados con trastornos neurológicos. El enfoque presentado ha demostrado ser efectivo para seleccionar subgrupos informativos de SNP potencialmente asociados con enfermedades que los enfoques estadísticos tradicionales podrían fallar. El nuevo RF funciona bien para los datos donde el número de objetos de casos y controles es mucho menor que el número de SNP, que es un problema típico en los datos de genes y GWAS. Los resultados del experimento demostraron la efectividad del modelo de RF propuesto que superó a los RF de última generación, incluidos los métodos de RF, GRRF y wsRF de Breiman.Files
1471-2164-16-S2-S5.pdf
Files
(1.2 MB)
Name | Size | Download all |
---|---|---|
md5:b7d8c4045e6e4fc7799680293b7827b0
|
1.2 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تصنيف بيانات الارتباط على مستوى الجينوم واختيار SNPs باستخدام غابات عشوائية قائمة على الجودة على مرحلتين
- Translated title (French)
- Classification des données d'association à l'échelle du génome et sélection des SNP à l'aide de forêts aléatoires basées sur la qualité en deux étapes
- Translated title (Spanish)
- Clasificación de datos de asociación de todo el genoma y selección de SNP utilizando bosques aleatorios basados en la calidad de dos etapas
Identifiers
- Other
- https://openalex.org/W1492273171
- DOI
- 10.1186/1471-2164-16-s2-s5
References
- https://openalex.org/W1520812622
- https://openalex.org/W1539593569
- https://openalex.org/W1546989560
- https://openalex.org/W165068132
- https://openalex.org/W1875061881
- https://openalex.org/W1980175560
- https://openalex.org/W1986112393
- https://openalex.org/W1996031526
- https://openalex.org/W2013577952
- https://openalex.org/W2022604714
- https://openalex.org/W2043175314
- https://openalex.org/W2054153086
- https://openalex.org/W2061008984
- https://openalex.org/W2063575312
- https://openalex.org/W2069107889
- https://openalex.org/W2070796617
- https://openalex.org/W2074388642
- https://openalex.org/W2079023204
- https://openalex.org/W2086099578
- https://openalex.org/W2095499628
- https://openalex.org/W2101889545
- https://openalex.org/W2123231396
- https://openalex.org/W2125858955
- https://openalex.org/W2128207034
- https://openalex.org/W2134783591
- https://openalex.org/W2169294950
- https://openalex.org/W2911964244
- https://openalex.org/W4252684946
- https://openalex.org/W4297957988