Computational design of novel Cas9 PAM-interacting domains using evolution-based modelling and structural quality assessment
Creators
- 1. École Normale Supérieure
- 2. Université Paris Cité
- 3. École Normale Supérieure - PSL
- 4. Institut Pasteur
Description
Abstract We present here an approach to protein design that enables to leverage (i) scarce functional information such as experimental data (ii) evolutionary information learned from a natural sequence variants and (iii) physics-grounded modeling. Using a Restricted Boltzmann Machine (RBM), we learned a sequence model of a protein family. We use semi-supervision to leverage available functional information during the RBM training. We then propose a strategy to explore the protein representation space that can be informed by external models such as an empirical force field method (FoldX). This method was applied to a domain of the Cas9 protein responsible for recognition of a short DNA motif. We experimentally assessed the functionality of 71 variants that were generated to explore a range of RBM and FoldX energies. We show how a combination of functional, structural and evolutionary information can identify functional variants with high accuracy. Sequences with as many as 50 differences (20% of the protein domain) to the wild-type retained functionality. Overall, 21/71 sequences designed with our method were functional. Interestingly, 6/71 sequences showed an improved activity in comparison with the original wild-type protein sequence. These results demonstrate the interest in further exploring the synergies between machine-learning of protein sequence representations and physics grounded modeling strategies informed by structural information.
Translated Descriptions
Translated Description (Arabic)
نبذة مختصرة نقدم هنا نهجًا لتصميم البروتين يمكّن من الاستفادة من (1) المعلومات الوظيفية النادرة مثل البيانات التجريبية (2) المعلومات التطورية المستفادة من متغيرات التسلسل الطبيعي و (3) النمذجة القائمة على الفيزياء. باستخدام آلة بولتزمان المقيدة (RBM)، تعلمنا نموذجًا تسلسليًا لعائلة البروتين. نستخدم شبه الإشراف للاستفادة من المعلومات الوظيفية المتاحة أثناء التدريب على الإدارة القائمة على النتائج. ثم نقترح استراتيجية لاستكشاف مساحة تمثيل البروتين التي يمكن أن تسترشد بنماذج خارجية مثل طريقة مجال القوة التجريبية (FoldX). تم تطبيق هذه الطريقة على مجال من بروتين Cas9 المسؤول عن التعرف على عزر الحمض النووي القصير. أجرينا تقييمًا تجريبيًا لوظائف 71 متغيرًا تم إنشاؤها لاستكشاف مجموعة من طاقات الإدارة القائمة على النتائج و FoldX. نوضح كيف يمكن لمزيج من المعلومات الوظيفية والهيكلية والتطورية تحديد المتغيرات الوظيفية بدقة عالية. تسلسل يحتوي على ما يصل إلى 50 اختلافًا (20 ٪ من مجال البروتين) إلى الوظيفة المحتفظ بها من النوع البري. بشكل عام، كانت التسلسلات 21/71 المصممة بطريقتنا وظيفية. ومن المثير للاهتمام أن تسلسلات 6/71 أظهرت نشاطًا محسنًا مقارنة بتسلسل البروتين من النوع البري الأصلي. تُظهر هذه النتائج الاهتمام بمواصلة استكشاف أوجه التآزر بين التعلم الآلي لتمثيلات تسلسل البروتين واستراتيجيات النمذجة القائمة على الفيزياء المستندة إلى المعلومات الهيكلية.Translated Description (French)
Résumé Nous présentons ici une approche de la conception de protéines qui permet d'exploiter (i) des informations fonctionnelles rares telles que des données expérimentales (ii) des informations évolutives apprises à partir de variantes de séquences naturelles et (iii) une modélisation basée sur la physique. À l'aide d'une machine de Boltzmann restreinte (RBM), nous avons appris un modèle de séquence d'une famille de protéines. Nous utilisons la semi-supervision pour tirer parti des informations fonctionnelles disponibles pendant la formation RBM. Nous proposons ensuite une stratégie pour explorer l'espace de représentation des protéines qui peut être informée par des modèles externes tels qu'une méthode de champ de force empirique (FoldX). Cette méthode a été appliquée à un domaine de la protéine Cas9 responsable de la reconnaissance d'un motif d'ADN court. Nous avons évalué expérimentalement la fonctionnalité de 71 variantes générées pour explorer une gamme d'énergies RBM et FoldX. Nous montrons comment une combinaison d'informations fonctionnelles, structurelles et évolutives peut identifier des variantes fonctionnelles avec une grande précision. Séquences présentant jusqu'à 50 différences (20 % du domaine protéique) par rapport à la fonctionnalité conservée de type sauvage. Dans l'ensemble, les séquences 21/71 conçues avec notre méthode étaient fonctionnelles. Fait intéressant, les séquences 6/71 ont montré une activité améliorée par rapport à la séquence originale de protéines de type sauvage. Ces résultats démontrent l'intérêt d'explorer davantage les synergies entre l'apprentissage automatique des représentations de séquences de protéines et les stratégies de modélisation fondées sur la physique et éclairées par des informations structurelles.Translated Description (Spanish)
Resumen Presentamos aquí un enfoque del diseño de proteínas que permite aprovechar (i) la escasa información funcional, como los datos experimentales (ii) la información evolutiva aprendida a partir de variantes de secuencias naturales y (iii) el modelado basado en la física. Usando una máquina de Boltzmann restringida (RBM), aprendimos un modelo de secuencia de una familia de proteínas. Utilizamos la semi-supervisión para aprovechar la información funcional disponible durante la capacitación de RBM. A continuación, proponemos una estrategia para explorar el espacio de representación de proteínas que puede basarse en modelos externos, como un método de campo de fuerza empírico (FoldX). Este método se aplicó a un dominio de la proteína Cas9 responsable del reconocimiento de un motivo de ADN corto. Evaluamos experimentalmente la funcionalidad de 71 variantes que se generaron para explorar una gama de energías RBM y FoldX. Mostramos cómo una combinación de información funcional, estructural y evolutiva puede identificar variantes funcionales con alta precisión. Las secuencias con hasta 50 diferencias (20% del dominio proteico) con respecto a la funcionalidad conservada de tipo salvaje. En general, las secuencias 21/71 diseñadas con nuestro método fueron funcionales. Curiosamente, las secuencias 6/71 mostraron una actividad mejorada en comparación con la secuencia de proteína de tipo salvaje original. Estos resultados demuestran el interés en explorar más a fondo las sinergias entre el aprendizaje automático de las representaciones de secuencias de proteínas y las estrategias de modelado basadas en la física informadas por la información estructural.Files
2023.03.20.533501.full.pdf.pdf
Files
(2.2 MB)
Name | Size | Download all |
---|---|---|
md5:ce5250f1a5bb087752881e6d6a6b26fc
|
2.2 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- التصميم الحسابي لمجالات تفاعل Cas9 PAM الجديدة باستخدام النمذجة القائمة على التطور وتقييم الجودة الهيكلية
- Translated title (French)
- Conception informatique de nouveaux domaines d'interaction Cas9 PAM à l'aide d'une modélisation basée sur l'évolution et d'une évaluation de la qualité structurelle
- Translated title (Spanish)
- Diseño computacional de dominios novedosos que interactúan con Pam de Cas9 utilizando modelado basado en la evolución y evaluación de la calidad estructural
Identifiers
- Other
- https://openalex.org/W4360617205
- DOI
- 10.1101/2023.03.20.533501
References
- https://openalex.org/W1979762151
- https://openalex.org/W2008545402
- https://openalex.org/W2048310584
- https://openalex.org/W2050480410
- https://openalex.org/W2103325328
- https://openalex.org/W2107959600
- https://openalex.org/W2116825644
- https://openalex.org/W2245592118
- https://openalex.org/W2303521084
- https://openalex.org/W2607174456
- https://openalex.org/W2799163714
- https://openalex.org/W2807540482
- https://openalex.org/W2889513238
- https://openalex.org/W2898364362
- https://openalex.org/W2906461396
- https://openalex.org/W2914667215
- https://openalex.org/W2920817727
- https://openalex.org/W2944245644
- https://openalex.org/W2959517416
- https://openalex.org/W2963640180
- https://openalex.org/W3005407385
- https://openalex.org/W3013504322
- https://openalex.org/W3024837976
- https://openalex.org/W3025577451
- https://openalex.org/W3029583129
- https://openalex.org/W3044778276
- https://openalex.org/W3094406762
- https://openalex.org/W3111171798
- https://openalex.org/W3123122710
- https://openalex.org/W3123243594
- https://openalex.org/W3132323068
- https://openalex.org/W3133458480
- https://openalex.org/W3135175179
- https://openalex.org/W3144239152
- https://openalex.org/W3146944767
- https://openalex.org/W3156954097
- https://openalex.org/W3166108653
- https://openalex.org/W3177500196
- https://openalex.org/W3177828909
- https://openalex.org/W3182036650
- https://openalex.org/W3186179742
- https://openalex.org/W3195021868
- https://openalex.org/W3203755513
- https://openalex.org/W3205544459
- https://openalex.org/W3208082951
- https://openalex.org/W3216341763
- https://openalex.org/W3216878690
- https://openalex.org/W4200336947
- https://openalex.org/W4213255340
- https://openalex.org/W4251751280
- https://openalex.org/W4291142782
- https://openalex.org/W4296032638
- https://openalex.org/W4317374308
- https://openalex.org/W4318071656
- https://openalex.org/W4328112733
- https://openalex.org/W4366279959
- https://openalex.org/W4385572942
- https://openalex.org/W4388024559