AIKYATAN: mapping distal regulatory elements using convolutional learning on GPU
- 1. Purdue University West Lafayette
- 2. Prince of Songkla University
- 3. Google (United States)
Description
Abstract Background The data deluge can leverage sophisticated ML techniques for functionally annotating the regulatory non-coding genome. The challenge lies in selecting the appropriate classifier for the specific functional annotation problem, within the bounds of the hardware constraints and the model's complexity. In our system Aikyatan , we annotate distal epigenomic regulatory sites, e.g., enhancers. Specifically, we develop a binary classifier that classifies genome sequences as distal regulatory regions or not, given their histone modifications' combinatorial signatures. This problem is challenging because the regulatory regions are distal to the genes, with diverse signatures across classes (e.g., enhancers and insulators) and even within each class (e.g., different enhancer sub-classes). Results We develop a suite of ML models, under the banner Aikyatan , including SVM models, random forest variants, and deep learning architectures, for distal regulatory element (DRE) detection. We demonstrate, with strong empirical evidence, deep learning approaches have a computational advantage. Plus, convolutional neural networks (CNN) provide the best-in-class accuracy, superior to the vanilla variant. With the human embryonic cell line H1, CNN achieves an accuracy of 97.9% and an order of magnitude lower runtime than the kernel SVM. Running on a GPU, the training time is sped up 21x and 30x (over CPU) for DNN and CNN, respectively. Finally, our CNN model enjoys superior prediction performance vis-'a-vis the competition. Specifically, Aikyatan -CNN achieved 40% higher validation rate versus CSIANN and the same accuracy as RFECS. Conclusions Our exhaustive experiments using an array of ML tools validate the need for a model that is not only expressive but can scale with increasing data volumes and diversity. In addition, a subset of these datasets have image-like properties and benefit from spatial pooling of features. Our Aikyatan suite leverages diverse epigenomic datasets that can then be modeled using CNNs with optimized activation and pooling functions. The goal is to capture the salient features of the integrated epigenomic datasets for deciphering the distal (non-coding) regulatory elements, which have been found to be associated with functional variants. Our source code will be made publicly available at: https://bitbucket.org/cellsandmachines/aikyatan.
Translated Descriptions
Translated Description (Arabic)
خلفية مجردة يمكن لطوفان البيانات الاستفادة من تقنيات ML المتطورة للتعليق الوظيفي على الجينوم التنظيمي غير المشفر. يكمن التحدي في اختيار المصنف المناسب لمشكلة التعليق التوضيحي الوظيفي المحددة، ضمن حدود قيود الأجهزة وتعقيد النموذج. في نظامنا أيكياتان، نقوم بتعليق المواقع التنظيمية فوق الجينية البعيدة، على سبيل المثال، المعززات. على وجه التحديد، نقوم بتطوير مصنف ثنائي يصنف تسلسلات الجينوم كمناطق تنظيمية بعيدة أم لا، بالنظر إلى التواقيع التوافقية لتعديلات الهيستونات الخاصة بها. هذه المشكلة صعبة لأن المناطق التنظيمية بعيدة عن الجينات، مع توقيعات متنوعة عبر الفئات (على سبيل المثال، المعززات والعوازل) وحتى داخل كل فئة (على سبيل المثال، فئات فرعية مختلفة من المعززات). النتائج نطور مجموعة من نماذج التعلم الآلي، تحت شعار أيكياتان، بما في ذلك نماذج SVM، ومتغيرات الغابات العشوائية، وبنى التعلم العميق، للكشف عن العناصر التنظيمية البعيدة (DRE). نظهر، مع أدلة تجريبية قوية، أن مناهج التعلم العميق لها ميزة حسابية. بالإضافة إلى ذلك، توفر الشبكات العصبية الالتفافية (CNN) أفضل دقة في فئتها، متفوقة على متغير الفانيليا. مع خط الخلايا الجنينية البشرية H1، تحقق CNN دقة 97.9 ٪ ووقت تشغيل أقل من نواة SVM. يتم تشغيله على وحدة معالجة الرسومات، ويتم تسريع وقت التدريب 21x و 30x (عبر وحدة المعالجة المركزية) لـ DNN و CNN، على التوالي. أخيرًا، يتمتع نموذج CNN الخاص بنا بأداء تنبؤي متفوق مقابل المنافسة. على وجه التحديد، حققت Aikyatan - CNN معدل تحقق أعلى بنسبة 40 ٪ مقابل CSIANN وبنفس دقة RFECS. الاستنتاجات تؤكد تجاربنا الشاملة باستخدام مجموعة من أدوات تعلم الآلة الحاجة إلى نموذج ليس معبرًا فحسب، بل يمكن توسيع نطاقه مع زيادة أحجام البيانات وتنوعها. بالإضافة إلى ذلك، تحتوي مجموعة فرعية من مجموعات البيانات هذه على خصائص تشبه الصورة وتستفيد من التجميع المكاني للميزات. يستفيد جناح أيكياتان من مجموعات البيانات الجينية المتنوعة التي يمكن نمذجتها بعد ذلك باستخدام CNNs مع وظائف التنشيط والتجميع المحسنة. الهدف هو التقاط السمات البارزة لمجموعات البيانات الجينية المتكاملة لفك تشفير العناصر التنظيمية البعيدة (غير المشفرة)، والتي تبين أنها مرتبطة بالمتغيرات الوظيفية. ستكون شفرة المصدر الخاصة بنا متاحة للجمهور على: https://bitbucket.org/cellsandmachines/aikyatan.Translated Description (French)
Résumé Contexte Le déluge de données peut tirer parti de techniques de ML sophistiquées pour annoter fonctionnellement le génome non codant réglementaire. Le défi consiste à sélectionner le classificateur approprié pour le problème d'annotation fonctionnelle spécifique, dans les limites des contraintes matérielles et de la complexité du modèle. Dans notre système Aikyatan, nous annotons les sites régulateurs épigénomiques distaux, par exemple, les activateurs. Plus précisément, nous développons un classificateur binaire qui classe les séquences génomiques en tant que régions régulatrices distales ou non, compte tenu des signatures combinatoires de leurs modifications histoniques. Ce problème est difficile car les régions régulatrices sont distales des gènes, avec diverses signatures entre les classes (par exemple, les amplificateurs et les isolants) et même au sein de chaque classe (par exemple, différentes sous-classes d'amplificateurs). Résultats Nous développons une suite de modèles de ML, sous la bannière Aikyatan, y compris des modèles SVM, des variantes forestières aléatoires et des architectures d'apprentissage profond, pour la détection des éléments de régulation distale (DRE). Nous démontrons, avec des preuves empiriques solides, que les approches d'apprentissage profond ont un avantage computationnel. De plus, les réseaux neuronaux convolutionnels (CNN) offrent la meilleure précision de sa catégorie, supérieure à la variante vanille. Avec la lignée cellulaire embryonnaire humaine H1, CNN atteint une précision de 97,9 % et une durée d'exécution inférieure d'un ordre de grandeur à celle du SVM du noyau. Fonctionnant sur un GPU, le temps de formation est accéléré de 21x et 30x (sur CPU) pour DNN et CNN, respectivement. Enfin, notre modèle CNN bénéficie d'une performance de prédiction supérieure par rapport à la concurrence. Plus précisément, Aikyatan -CNN a obtenu un taux de validation 40 % plus élevé que CSIANN et la même précision que RFECS. Conclusions Nos expériences exhaustives utilisant un éventail d'outils de ML valident le besoin d'un modèle non seulement expressif, mais qui peut évoluer avec des volumes de données et une diversité croissants. En outre, un sous-ensemble de ces ensembles de données a des propriétés de type image et bénéficie d'une mise en commun spatiale des caractéristiques. Notre suite Aikyatan exploite divers ensembles de données épigénomiques qui peuvent ensuite être modélisés à l'aide de CNN avec des fonctions d'activation et de mise en commun optimisées. L'objectif est de capturer les caractéristiques saillantes des ensembles de données épigénomiques intégrés pour déchiffrer les éléments de régulation distaux (non codants), qui se sont avérés associés à des variantes fonctionnelles. Notre code source sera mis à la disposition du public sur : https://bitbucket.org/cellsandmachines/aikyatan.Translated Description (Spanish)
Antecedentes abstractos El diluvio de datos puede aprovechar técnicas sofisticadas de ML para anotar funcionalmente el genoma regulador no codificante. El desafío radica en seleccionar el clasificador adecuado para el problema de anotación funcional específico, dentro de los límites de las restricciones de hardware y la complejidad del modelo. En nuestro sistema Aikyatan , anotamos sitios reguladores epigenómicos distales, por ejemplo, potenciadores. En concreto, desarrollamos un clasificador binario que clasifica las secuencias genómicas como regiones reguladoras distales o no, dadas las firmas combinatorias de sus modificaciones histónicas. Este problema es desafiante porque las regiones reguladoras son distales a los genes, con diversas firmas en todas las clases (por ejemplo, potenciadores y aislantes) e incluso dentro de cada clase (por ejemplo, diferentes subclases de potenciadores). Resultados Desarrollamos un conjunto de modelos de ML, bajo el lema Aikyatan, que incluyen modelos SVM, variantes de bosques aleatorios y arquitecturas de aprendizaje profundo, para la detección de elementos reguladores distales (DRE). Demostramos, con una fuerte evidencia empírica, que los enfoques de aprendizaje profundo tienen una ventaja computacional. Además, las redes neuronales convolucionales (CNN) proporcionan la mejor precisión de su clase, superior a la variante vainilla. Con la línea de células embrionarias humanas H1, CNN logra una precisión del 97,9% y un orden de magnitud menor tiempo de ejecución que la SVM del núcleo. Al ejecutarse en una GPU, el tiempo de entrenamiento se acelera 21x y 30x (a través de la CPU) para DNN y CNN, respectivamente. Finalmente, nuestro modelo CNN disfruta de un rendimiento de predicción superior frente a la competencia. Específicamente, Aikyatan -CNN logró una tasa de validación un 40% más alta que CSIANN y la misma precisión que RFECS. Conclusiones Nuestros exhaustivos experimentos utilizando una serie de herramientas de aprendizaje automático validan la necesidad de un modelo que no solo sea expresivo, sino que pueda escalar con volúmenes de datos y diversidad crecientes. Además, un subconjunto de estos conjuntos de datos tiene propiedades similares a las de las imágenes y se beneficia de la agrupación espacial de características. Nuestra suite Aikyatan aprovecha diversos conjuntos de datos epigenómicos que luego se pueden modelar utilizando CNN con funciones optimizadas de activación y agrupación. El objetivo es capturar las características sobresalientes de los conjuntos de datos epigenómicos integrados para descifrar los elementos reguladores distales (no codificantes), que se han encontrado asociados con variantes funcionales. Nuestro código fuente estará disponible públicamente en: https://bitbucket.org/cellsandmachines/aikyatan.Files
s12859-019-3049-1.pdf.pdf
Files
(2.6 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:760dd06fadeddca8f47e2d1baa5dbb8d
|
2.6 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- AIKYATAN: تعيين العناصر التنظيمية البعيدة باستخدام التعلم التلافي على GPU
- Translated title (French)
- AIKYATAN : cartographie des éléments de régulation distale à l'aide de l'apprentissage convolutif sur GPU
- Translated title (Spanish)
- AIKYATAN: mapeo de elementos reguladores distales utilizando aprendizaje convolucional en GPU
Identifiers
- Other
- https://openalex.org/W2977338442
- DOI
- 10.1186/s12859-019-3049-1
References
- https://openalex.org/W1523493493
- https://openalex.org/W1677182931
- https://openalex.org/W1951403192
- https://openalex.org/W1986865417
- https://openalex.org/W2007203150
- https://openalex.org/W2016015848
- https://openalex.org/W2019251848
- https://openalex.org/W2019961381
- https://openalex.org/W2052815101
- https://openalex.org/W2055327776
- https://openalex.org/W2073700708
- https://openalex.org/W2074531605
- https://openalex.org/W2077624120
- https://openalex.org/W2079407198
- https://openalex.org/W2084160423
- https://openalex.org/W2097117768
- https://openalex.org/W2100495367
- https://openalex.org/W2104846587
- https://openalex.org/W2110652811
- https://openalex.org/W2140240158
- https://openalex.org/W2144015117
- https://openalex.org/W2149298154
- https://openalex.org/W2160815625
- https://openalex.org/W2168029744
- https://openalex.org/W2194775991
- https://openalex.org/W2259938310
- https://openalex.org/W2282866165
- https://openalex.org/W2308092540
- https://openalex.org/W2332754646
- https://openalex.org/W2475924856
- https://openalex.org/W2513671774
- https://openalex.org/W2550848904
- https://openalex.org/W2560048654
- https://openalex.org/W2621774891
- https://openalex.org/W2763574125
- https://openalex.org/W2769715796
- https://openalex.org/W2774691683
- https://openalex.org/W2774733631
- https://openalex.org/W2799357357
- https://openalex.org/W2804974840
- https://openalex.org/W2807545768
- https://openalex.org/W2950980382
- https://openalex.org/W3105432754