Towards Unified AI Drug Discovery with Multimodal Knowledge
Creators
- 1. Tsinghua University
- 2. Peking University
- 3. Beijing Academy of Artificial Intelligence
Description
Background: In real-world drug discovery, human experts typically grasp molecular knowledge of drugs and proteins from multimodal sources including molecular structures, structured knowledge from knowledge bases, and unstructured knowledge from biomedical literature. Existing multimodal approaches in AI drug discovery integrate either structured or unstructured knowledge independently, which compromises the holistic understanding of biomolecules. Besides, they fail to address the missing modality problem, where multimodal information is missing for novel drugs and proteins. Methods: In this work, we present KEDD, a unified, end-to-end deep learning framework that jointly incorporates both structured and unstructured knowledge for vast AI drug discovery tasks. The framework first incorporates independent representation learning models to extract the underlying characteristics from each modality. Then, it applies a feature fusion technique to calculate the prediction results. To mitigate the missing modality problem, we leverage sparse attention and a modality masking technique to reconstruct the missing features based on top relevant molecules. Results: Benefiting from structured and unstructured knowledge, our framework achieves a deeper understanding of biomolecules. KEDD outperforms state-of-the-art models by an average of 5.2% on drug-target interaction prediction, 2.6% on drug property prediction, 1.2% on drug-drug interaction prediction, and 4.1% on protein-protein interaction prediction. Through qualitative analysis, we reveal KEDD's promising potential in assisting real-world applications. Conclusions: By incorporating biomolecular expertise from multimodal knowledge, KEDD bears promise in accelerating drug discovery.
Translated Descriptions
Translated Description (Arabic)
معلومات أساسية: في اكتشاف الأدوية في العالم الحقيقي، يستوعب الخبراء البشريون عادةً المعرفة الجزيئية للأدوية والبروتينات من مصادر متعددة الوسائط بما في ذلك الهياكل الجزيئية والمعرفة المنظمة من قواعد المعرفة والمعرفة غير المنظمة من الأدبيات الطبية الحيوية. تدمج الأساليب الحالية متعددة الوسائط في اكتشاف أدوية الذكاء الاصطناعي إما المعرفة المنظمة أو غير المنظمة بشكل مستقل، مما يضر بالفهم الشامل للجزيئات الحيوية. إلى جانب ذلك، فإنها تفشل في معالجة مشكلة الطريقة المفقودة، حيث تكون المعلومات متعددة الوسائط مفقودة للأدوية والبروتينات الجديدة. الأساليب: في هذا العمل، نقدم KEDD، وهو إطار تعلم عميق موحد من البداية إلى النهاية يتضمن بشكل مشترك المعرفة المنظمة وغير المنظمة لمهام اكتشاف الأدوية الواسعة للذكاء الاصطناعي. يتضمن الإطار أولاً نماذج تعلم التمثيل المستقل لاستخراج الخصائص الأساسية من كل طريقة. ثم يطبق تقنية دمج الميزات لحساب نتائج التنبؤ. للتخفيف من مشكلة الطريقة المفقودة، فإننا نستفيد من الاهتمام الضئيل وتقنية إخفاء الطريقة لإعادة بناء الميزات المفقودة بناءً على أهم الجزيئات ذات الصلة. النتائج: بالاستفادة من المعرفة المنظمة وغير المنظمة، يحقق إطارنا فهمًا أعمق للجزيئات الحيوية. يتفوق KEDD على أحدث النماذج بمتوسط 5.2 ٪ في التنبؤ بالتفاعل بين الأدوية المستهدفة، و 2.6 ٪ في التنبؤ بالممتلكات الدوائية، و 1.2 ٪ في التنبؤ بالتفاعل بين الأدوية، و 4.1 ٪ في التنبؤ بالتفاعل بين البروتين والبروتين. من خلال التحليل النوعي، نكشف عن إمكانات دائرة التنمية الاقتصادية الكويتية الواعدة في مساعدة التطبيقات في العالم الحقيقي. الاستنتاجات: من خلال دمج الخبرة الجزيئية الحيوية من المعرفة متعددة الوسائط، تحمل دائرة التنمية الاقتصادية في الكويت وعودًا في تسريع اكتشاف الأدوية.Translated Description (French)
Contexte : Dans la découverte de médicaments dans le monde réel, les experts humains saisissent généralement les connaissances moléculaires des médicaments et des protéines à partir de sources multimodales, y compris les structures moléculaires, les connaissances structurées à partir de bases de connaissances et les connaissances non structurées de la littérature biomédicale. Les approches multimodales existantes dans la découverte de médicaments par IA intègrent indépendamment des connaissances structurées ou non structurées, ce qui compromet la compréhension holistique des biomolécules. En outre, ils ne parviennent pas à résoudre le problème de la modalité manquante, où les informations multimodales manquent pour les nouveaux médicaments et protéines. Méthodes : Dans ce travail, nous présentons KEDD, un cadre d'apprentissage profond unifié de bout en bout qui intègre conjointement des connaissances structurées et non structurées pour de vastes tâches de découverte de médicaments par IA. Le cadre intègre d'abord des modèles d'apprentissage de représentation indépendants pour extraire les caractéristiques sous-jacentes de chaque modalité. Ensuite, il applique une technique de fusion de caractéristiques pour calculer les résultats de prédiction. Pour atténuer le problème de la modalité manquante, nous tirons parti d'une attention parcimonieuse et d'une technique de masquage de modalité pour reconstruire les caractéristiques manquantes en fonction des principales molécules pertinentes. Résultats : Bénéficiant de connaissances structurées et non structurées, notre cadre permet une compréhension plus approfondie des biomolécules. Le KEDD surpasse les modèles de pointe d'une moyenne de 5,2 % sur la prédiction des interactions médicamenteuses-cibles, de 2,6 % sur la prédiction des propriétés médicamenteuses, de 1,2 % sur la prédiction des interactions médicamenteuses et de 4,1 % sur la prédiction des interactions protéine-protéine. Grâce à une analyse qualitative, nous révélons le potentiel prometteur de KEDD pour aider les applications du monde réel. Conclusions : En intégrant l'expertise biomoléculaire issue des connaissances multimodales, le KEDD est prometteur dans l'accélération de la découverte de médicaments.Translated Description (Spanish)
Antecedentes: En el descubrimiento de fármacos en el mundo real, los expertos humanos generalmente captan el conocimiento molecular de fármacos y proteínas de fuentes multimodales, incluidas las estructuras moleculares, el conocimiento estructurado de las bases de conocimiento y el conocimiento no estructurado de la literatura biomédica. Los enfoques multimodales existentes en el descubrimiento de fármacos de IA integran el conocimiento estructurado o no estructurado de forma independiente, lo que compromete la comprensión holística de las biomoléculas. Además, no abordan el problema de la modalidad faltante, donde falta información multimodal para nuevos fármacos y proteínas. Métodos: En este trabajo, presentamos KEDD, un marco de aprendizaje profundo unificado de extremo a extremo que incorpora conjuntamente conocimientos estructurados y no estructurados para vastas tareas de descubrimiento de fármacos de IA. El marco incorpora primero modelos de aprendizaje de representación independientes para extraer las características subyacentes de cada modalidad. Luego, aplica una técnica de fusión de características para calcular los resultados de la predicción. Para mitigar el problema de la modalidad faltante, aprovechamos la escasa atención y una técnica de enmascaramiento de la modalidad para reconstruir las características faltantes en función de las principales moléculas relevantes. Resultados: Aprovechando el conocimiento estructurado y no estructurado, nuestro marco logra una comprensión más profunda de las biomoléculas. KEDD supera a los modelos de vanguardia en un promedio de 5.2% en la predicción de la interacción fármaco-diana, 2.6% en la predicción de la propiedad del fármaco, 1.2% en la predicción de la interacción fármaco-fármaco y 4.1% en la predicción de la interacción proteína-proteína. A través del análisis cualitativo, revelamos el potencial prometedor de KEDD para ayudar a las aplicaciones del mundo real. Conclusiones: Al incorporar la experiencia biomolecular del conocimiento multimodal, KEDD promete acelerar el descubrimiento de fármacos.Additional details
Additional titles
- Translated title (Arabic)
- نحو اكتشاف عقاقير ذكاء اصطناعي موحد مع معرفة متعددة الوسائط
- Translated title (French)
- Vers la découverte unifiée de médicaments IA avec des connaissances multimodales
- Translated title (Spanish)
- Hacia el descubrimiento unificado de fármacos de IA con conocimiento multimodal
Identifiers
- Other
- https://openalex.org/W4391323853
- DOI
- 10.34133/hds.0113
            
              References
            
          
        - https://openalex.org/W1975147762
- https://openalex.org/W1995089537
- https://openalex.org/W1999010280
- https://openalex.org/W2031772330
- https://openalex.org/W2056782561
- https://openalex.org/W2062584010
- https://openalex.org/W2087064593
- https://openalex.org/W2096173332
- https://openalex.org/W2107580398
- https://openalex.org/W2119583098
- https://openalex.org/W2123060905
- https://openalex.org/W2123688186
- https://openalex.org/W2134967712
- https://openalex.org/W2148145769
- https://openalex.org/W2148853951
- https://openalex.org/W2153838454
- https://openalex.org/W2177317049
- https://openalex.org/W2187089797
- https://openalex.org/W2570516417
- https://openalex.org/W2594183968
- https://openalex.org/W2739999456
- https://openalex.org/W2753953057
- https://openalex.org/W2767891136
- https://openalex.org/W2785947426
- https://openalex.org/W2805406480
- https://openalex.org/W2806547269
- https://openalex.org/W2896002881
- https://openalex.org/W2935632020
- https://openalex.org/W2945027804
- https://openalex.org/W2957436444
- https://openalex.org/W2963078194
- https://openalex.org/W2963323306
- https://openalex.org/W2966694634
- https://openalex.org/W2974658886
- https://openalex.org/W3016580728
- https://openalex.org/W3024894285
- https://openalex.org/W3028589594
- https://openalex.org/W3035011799
- https://openalex.org/W3039465695
- https://openalex.org/W3046375318
- https://openalex.org/W3092114378
- https://openalex.org/W3093053585
- https://openalex.org/W3094492244
- https://openalex.org/W3096561213
- https://openalex.org/W3099152386
- https://openalex.org/W3105688876
- https://openalex.org/W3116099552
- https://openalex.org/W3131857420
- https://openalex.org/W3146944767
- https://openalex.org/W3161299338
- https://openalex.org/W3167140978
- https://openalex.org/W3176404283
- https://openalex.org/W3189432583
- https://openalex.org/W3195415198
- https://openalex.org/W3217681006
- https://openalex.org/W4205167309
- https://openalex.org/W4212837331
- https://openalex.org/W4213060373
- https://openalex.org/W4214868967
- https://openalex.org/W4220853970
- https://openalex.org/W4223414650
- https://openalex.org/W4229377239
- https://openalex.org/W4239510810
- https://openalex.org/W4285594286
- https://openalex.org/W4313164293
- https://openalex.org/W4320024180
- https://openalex.org/W4362673398
- https://openalex.org/W4366824201