Published December 21, 2023 | Version v1
Publication Open

A foundation model for bioactivity prediction using pairwise meta-learning

  • 1. University of Washington
  • 2. Peking University
  • 3. University of California, Los Angeles
  • 4. Fudan University

Description

Abstract Compound bioactivity plays an important role in different stages of drug development and discovery. Existing machine learning approaches have poor generalization ability in compound bioactivity prediction due to the small number of compounds in each assay and incompatible measurements among assays. Here, we propose ActFound, a foundation model for bioactivity prediction trained on 1.6 million experimentally measured bioactivities and 35,644 assays from ChEMBL and BindingDB. The key idea of ActFound is to employ pairwise learning to learn the relative value differences between two compounds within the same assay to circumvent the incompatibility among assays. ActFound further exploits meta-learning to jointly optimize the model from all assays. On six real-world bioactivity datasets, ActFound demonstrates accurate in-domain prediction and strong generalization across datasets, assay types, and molecular scaffolds. We also demonstrated that ActFound can be used as an accurate alternative to the leading physics-based computational tool FEP+(OPLS4) by achieving comparable performance when only using a few data points for fine-tuning. The promising results of ActFound indicate that ActFound can be an effective foundation model for a wide range of tasks in compound bioactivity prediction, paving the path for machine learning-based drug development and discovery.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يلعب النشاط الحيوي المركب التجريدي دورًا مهمًا في مراحل مختلفة من تطوير الأدوية واكتشافها. تتمتع مناهج التعلم الآلي الحالية بقدرة تعميم ضعيفة في التنبؤ بالنشاط الحيوي المركب بسبب قلة عدد المركبات في كل اختبار والقياسات غير المتوافقة بين المقايسات. هنا، نقترح ActFound، وهو نموذج أساسي للتنبؤ بالنشاط الحيوي تم تدريبه على 1.6 مليون نشاط حيوي تم قياسه تجريبيًا و 35644 اختبارًا من ChEMBL و BindingDB. تتمثل الفكرة الرئيسية لـ ActFound في استخدام التعلم الثنائي لتعلم فروق القيمة النسبية بين مركبين في نفس الاختبار للتحايل على عدم التوافق بين الاختبارات. تستغل ActFound كذلك التعلم الفوقي لتحسين النموذج بشكل مشترك من جميع الاختبارات. على ست مجموعات بيانات للنشاط البيولوجي في العالم الحقيقي، يوضح ActFound تنبؤًا دقيقًا في المجال وتعميمًا قويًا عبر مجموعات البيانات وأنواع المقايسة والسقالات الجزيئية. أظهرنا أيضًا أنه يمكن استخدام ActFound كبديل دقيق للأداة الحسابية الرائدة القائمة على الفيزياء FEP+(OPLS4) من خلال تحقيق أداء مماثل عند استخدام بضع نقاط بيانات فقط للضبط الدقيق. تشير النتائج الواعدة لـ ActFound إلى أن ActFound يمكن أن يكون نموذجًا أساسيًا فعالًا لمجموعة واسعة من المهام في التنبؤ بالنشاط الحيوي المركب، مما يمهد الطريق لتطوير واكتشاف الأدوية القائمة على التعلم الآلي.

Translated Description (French)

Résumé La bioactivité des composés joue un rôle important dans les différentes étapes du développement et de la découverte des médicaments. Les approches d'apprentissage automatique existantes ont une faible capacité de généralisation dans la prédiction de la bioactivité des composés en raison du petit nombre de composés dans chaque dosage et des mesures incompatibles entre les dosages. Nous proposons ici ActFound, un modèle de base pour la prédiction de la bioactivité formé sur 1,6 million de bioactivités mesurées expérimentalement et 35 644 dosages de ChEMBL et BindingDB. L'idée clé d'ActFound est d'utiliser l'apprentissage par paires pour apprendre les différences de valeur relative entre deux composés dans le même test afin de contourner l'incompatibilité entre les tests. ActFound exploite davantage le méta-apprentissage pour optimiser conjointement le modèle à partir de tous les dosages. Sur six ensembles de données de bioactivité du monde réel, ActFound démontre une prédiction précise dans le domaine et une forte généralisation à travers les ensembles de données, les types de tests et les échafaudages moléculaires. Nous avons également démontré qu'ActFound peut être utilisé comme une alternative précise au principal outil de calcul basé sur la physique FEP+(OPLS4) en atteignant des performances comparables en utilisant seulement quelques points de données pour le réglage fin. Les résultats prometteurs d'ActFound indiquent qu'ActFound peut être un modèle de base efficace pour un large éventail de tâches dans la prédiction de la bioactivité composée, ouvrant la voie au développement et à la découverte de médicaments basés sur l'apprentissage automatique.

Translated Description (Spanish)

Resumen La bioactividad del compuesto juega un papel importante en las diferentes etapas del desarrollo y descubrimiento de fármacos. Los enfoques de aprendizaje automático existentes tienen poca capacidad de generalización en la predicción de la bioactividad de los compuestos debido al pequeño número de compuestos en cada ensayo y a las mediciones incompatibles entre los ensayos. Aquí, proponemos ActFound, un modelo de base para la predicción de bioactividad entrenado en 1.6 millones de bioactividades medidas experimentalmente y 35,644 ensayos de ChEMBL y BindingDB. La idea clave de ActFound es emplear el aprendizaje por pares para aprender las diferencias de valor relativo entre dos compuestos dentro del mismo ensayo para evitar la incompatibilidad entre los ensayos. ActFound aprovecha aún más el meta-aprendizaje para optimizar conjuntamente el modelo de todos los ensayos. En seis conjuntos de datos de bioactividad del mundo real, ActFound demuestra una predicción precisa en el dominio y una fuerte generalización a través de conjuntos de datos, tipos de ensayos y andamios moleculares. También demostramos que ActFound se puede utilizar como una alternativa precisa a la herramienta computacional líder basada en la física FEP+(OPLS4) al lograr un rendimiento comparable cuando solo se utilizan unos pocos puntos de datos para el ajuste fino. Los resultados prometedores de ActFound indican que ActFound puede ser un modelo de base eficaz para una amplia gama de tareas en la predicción de la bioactividad de compuestos, allanando el camino para el desarrollo y descubrimiento de fármacos basados en el aprendizaje automático.

Files

latest.pdf.pdf

Files (3.4 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:13a52ada12e6d4920728c9f20af5df6c
3.4 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نموذج أساسي للتنبؤ بالنشاط الحيوي باستخدام التعلم التلوي الثنائي
Translated title (French)
Un modèle de base pour la prédiction de la bioactivité en utilisant le méta-apprentissage par paires
Translated title (Spanish)
Un modelo de base para la predicción de la bioactividad utilizando el metaaprendizaje por pares

Identifiers

Other
https://openalex.org/W4390030058
DOI
10.21203/rs.3.rs-3546062/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1910508441
  • https://openalex.org/W1988037271
  • https://openalex.org/W2011606734
  • https://openalex.org/W2025006523
  • https://openalex.org/W2035585923
  • https://openalex.org/W2081301924
  • https://openalex.org/W2086286404
  • https://openalex.org/W2096541451
  • https://openalex.org/W2096864392
  • https://openalex.org/W2108068107
  • https://openalex.org/W2117620409
  • https://openalex.org/W2154670681
  • https://openalex.org/W2319057313
  • https://openalex.org/W2582187633
  • https://openalex.org/W2601450892
  • https://openalex.org/W2604763608
  • https://openalex.org/W2755098789
  • https://openalex.org/W2789796452
  • https://openalex.org/W2899788782
  • https://openalex.org/W2937307539
  • https://openalex.org/W2950774882
  • https://openalex.org/W2952635193
  • https://openalex.org/W2966715458
  • https://openalex.org/W2995049146
  • https://openalex.org/W3010761615
  • https://openalex.org/W3042448193
  • https://openalex.org/W3092524006
  • https://openalex.org/W3092824172
  • https://openalex.org/W3095883070
  • https://openalex.org/W3096561213
  • https://openalex.org/W3112981685
  • https://openalex.org/W3129456332
  • https://openalex.org/W3166396011
  • https://openalex.org/W3167019654
  • https://openalex.org/W3189831819
  • https://openalex.org/W3191081593
  • https://openalex.org/W3201023763
  • https://openalex.org/W3211477647
  • https://openalex.org/W4205821112
  • https://openalex.org/W4226278401
  • https://openalex.org/W4235765290
  • https://openalex.org/W4249834836
  • https://openalex.org/W4281388820
  • https://openalex.org/W4289534674
  • https://openalex.org/W4289763970
  • https://openalex.org/W4292779060
  • https://openalex.org/W4297734170
  • https://openalex.org/W4311436943
  • https://openalex.org/W4313485929
  • https://openalex.org/W4323572088
  • https://openalex.org/W4360836968
  • https://openalex.org/W4366829530
  • https://openalex.org/W4386287987
  • https://openalex.org/W4386766213
  • https://openalex.org/W4387639561
  • https://openalex.org/W4389157471