Published June 16, 2020 | Version v1
Publication Open

Stratifying patients using fast multiple kernel learning framework: case studies of Alzheimer's disease and cancers

  • 1. VNU University of Science
  • 2. University of Luxembourg
  • 3. Hanoi National University of Education

Description

Abstract Background Predictive patient stratification is greatly emerging, because it allows us to prospectively identify which patients will benefit from what interventions before their condition worsens. In the biomedical research, a number of stratification methods have been successfully applied and have assisted treatment process. Because of heterogeneity and complexity of medical data, it is very challenging to integrate them and make use of them in practical clinic. There are two major challenges of data integration. Firstly, since the biomedical data has a high number of dimensions, combining multiple data leads to the hard problem of vast dimensional space handling. The computation is enormously complex and time-consuming. Secondly, the disparity of different data types causes another critical problem in machine learning for biomedical data. It has a great need to develop an efficient machine learning framework to handle the challenges. Methods In this paper, we propose a fast-multiple kernel learning framework, referred to as fMKL-DR, that optimise equations to calculate matrix chain multiplication and reduce dimensions in data space. We applied our framework to two case studies, Alzheimer's disease (AD) patient stratification and cancer patient stratification. We performed several comparative evaluations on various biomedical datasets. Results In the case study of AD patients, we enhanced significantly the multiple-ROIs approach based on MRI image data. The method could successfully classify not only AD patients and non-AD patients but also different phases of AD patients with AUC close to 1. In the case study of cancer patients, the framework was applied to six types of cancers, i.e., glioblastoma multiforme cancer, ovarian cancer, lung cancer, breast cancer, kidney cancer, and liver cancer. We efficiently integrated gene expression, miRNA expression, and DNA methylation. The results showed that the classification model basing on integrated datasets was much more accurate than classification model basing on the single data type. Conclusions The results demonstrated that the fMKL-DR remarkably improves computational cost and accuracy for both AD patient and cancer patient stratification. We optimised the data integration, dimension reduction, and kernel fusion. Our framework has great potential for mining large-scale cohort data and aiding personalised prevention.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

نبذة مختصرة يظهر التقسيم الطبقي التنبئي للمرضى بشكل كبير، لأنه يسمح لنا بتحديد المرضى الذين سيستفيدون من التدخلات قبل تفاقم حالتهم. في البحث الطبي الحيوي، تم تطبيق عدد من طرق التقسيم الطبقي بنجاح وساعدت في عملية العلاج. بسبب عدم تجانس وتعقيد البيانات الطبية، من الصعب للغاية دمجها والاستفادة منها في العيادة العملية. هناك تحديان رئيسيان لتكامل البيانات. أولاً، نظرًا لأن البيانات الطبية الحيوية لها عدد كبير من الأبعاد، فإن الجمع بين بيانات متعددة يؤدي إلى المشكلة الصعبة المتمثلة في التعامل مع المساحات واسعة الأبعاد. الحساب معقد للغاية ويستغرق وقتًا طويلاً. ثانيًا، يتسبب التفاوت بين أنواع البيانات المختلفة في مشكلة حرجة أخرى في التعلم الآلي للبيانات الطبية الحيوية. لديها حاجة كبيرة لتطوير إطار فعال للتعلم الآلي للتعامل مع التحديات. الطرق في هذه الورقة، نقترح إطارًا تعليميًا سريعًا متعدد النواة، يشار إليه باسم fMKL - DR، والذي يحسن المعادلات لحساب ضرب سلسلة المصفوفة وتقليل الأبعاد في مساحة البيانات. طبقنا إطارنا على دراستي حالة، وهما تصنيف مرضى الزهايمر (AD) وطبقات مرضى السرطان. أجرينا العديد من التقييمات المقارنة على مختلف مجموعات البيانات الطبية الحيوية. النتائج في دراسة حالة مرضى الزهايمر، عززنا بشكل كبير نهج العائد على الاستثمار المتعدد بناءً على بيانات صورة التصوير بالرنين المغناطيسي. يمكن للطريقة أن تصنف بنجاح ليس فقط مرضى الزهايمر والمرضى غير الزهايمر ولكن أيضًا مراحل مختلفة من مرضى الزهايمر الذين يعانون من المنطقة تحت المنحنى بالقرب من 1. في دراسة حالة مرضى السرطان، تم تطبيق الإطار على ستة أنواع من السرطانات، أي الورم الأرومي الدبقي متعدد الأشكال، وسرطان المبيض، وسرطان الرئة، وسرطان الثدي، وسرطان الكلى، وسرطان الكبد. لقد قمنا بدمج التعبير الجيني بكفاءة، وتعبير miRNA، ومثيلة الحمض النووي. أظهرت النتائج أن نموذج التصنيف القائم على مجموعات البيانات المتكاملة كان أكثر دقة بكثير من نموذج التصنيف القائم على نوع البيانات الفردي. الاستنتاجات أظهرت النتائج أن fMKL - DR يحسن بشكل ملحوظ التكلفة الحسابية والدقة لكل من مريض الزهايمر وطبقات مرضى السرطان. لقد قمنا بتحسين تكامل البيانات وتقليل الأبعاد ودمج النواة. يتمتع إطارنا بإمكانات كبيرة لاستخراج بيانات المجموعات واسعة النطاق والمساعدة في الوقاية الشخصية.

Translated Description (French)

Résumé Contexte La stratification prédictive des patients est en train d'émerger, car elle nous permet d'identifier de manière prospective quels patients bénéficieront de quelles interventions avant que leur état ne s'aggrave. Dans la recherche biomédicale, un certain nombre de méthodes de stratification ont été appliquées avec succès et ont aidé le processus de traitement. En raison de l'hétérogénéité et de la complexité des données médicales, il est très difficile de les intégrer et de les utiliser en clinique pratique. L'intégration des données pose deux défis majeurs. Tout d'abord, étant donné que les données biomédicales ont un nombre élevé de dimensions, la combinaison de plusieurs données conduit au problème difficile de la manipulation d'un vaste espace dimensionnel. Le calcul est extrêmement complexe et prend beaucoup de temps. Deuxièmement, la disparité des différents types de données pose un autre problème critique dans l'apprentissage automatique des données biomédicales. Il a un grand besoin de développer un cadre d'apprentissage automatique efficace pour relever les défis. Méthodes Dans cet article, nous proposons un cadre d'apprentissage à noyau multiple rapide, appelé fMKL-DR, qui optimise les équations pour calculer la multiplication de la chaîne matricielle et réduire les dimensions dans l'espace de données. Nous avons appliqué notre cadre à deux études de cas, la stratification des patients atteints de la maladie d'Alzheimer (MA) et la stratification des patients atteints de cancer. Nous avons effectué plusieurs évaluations comparatives sur divers ensembles de données biomédicales. Résultats Dans l'étude de cas des patients atteints de la MA, nous avons amélioré de manière significative l'approche multi-ROI basée sur les données d'images IRM. La méthode pourrait classer avec succès non seulement les patients atteints de MA et les patients non atteints de MA, mais aussi les différentes phases de patients atteints de MA avec une ASC proche de 1. Dans l'étude de cas de patients atteints de cancer, le cadre a été appliqué à six types de cancers, à savoir le cancer du glioblastome multiforme, le cancer de l'ovaire, le cancer du poumon, le cancer du sein, le cancer du rein et le cancer du foie. Nous avons efficacement intégré l'expression des gènes, l'expression des miARN et la méthylation de l'ADN. Les résultats ont montré que le modèle de classification basé sur des ensembles de données intégrés était beaucoup plus précis que le modèle de classification basé sur le type de données unique. Conclusions Les résultats ont démontré que le fMKL-DR améliore considérablement le coût et la précision des calculs pour la stratification des patients atteints de MA et de cancer. Nous avons optimisé l'intégration des données, la réduction des dimensions et la fusion du noyau. Notre cadre présente un grand potentiel pour l'extraction de données de cohorte à grande échelle et l'aide à la prévention personnalisée.

Translated Description (Spanish)

Resumen Antecedentes La estratificación predictiva de pacientes está surgiendo en gran medida, ya que nos permite identificar prospectivamente qué pacientes se beneficiarán de qué intervenciones antes de que su condición empeore. En la investigación biomédica, se han aplicado con éxito una serie de métodos de estratificación que han ayudado al proceso de tratamiento. Debido a la heterogeneidad y complejidad de los datos médicos, es muy difícil integrarlos y hacer uso de ellos en la clínica práctica. Hay dos desafíos principales en la integración de datos. En primer lugar, dado que los datos biomédicos tienen un gran número de dimensiones, la combinación de múltiples datos conduce al difícil problema del manejo del vasto espacio dimensional. El cálculo es enormemente complejo y requiere mucho tiempo. En segundo lugar, la disparidad de los diferentes tipos de datos causa otro problema crítico en el aprendizaje automático de datos biomédicos. Tiene una gran necesidad de desarrollar un marco de aprendizaje automático eficiente para manejar los desafíos. Métodos En este documento, proponemos un marco de aprendizaje de núcleo múltiple rápido, denominado fMKL-DR, que optimiza las ecuaciones para calcular la multiplicación de la cadena de matrices y reducir las dimensiones en el espacio de datos. Aplicamos nuestro marco a dos estudios de casos, la estratificación de pacientes con enfermedad de Alzheimer (EA) y la estratificación de pacientes con cáncer. Realizamos varias evaluaciones comparativas en varios conjuntos de datos biomédicos. Resultados En el estudio de caso de pacientes con EA, mejoramos significativamente el enfoque de múltiples ROI basado en datos de imágenes de resonancia magnética. El método podría clasificar con éxito no solo a los pacientes con EA y a los pacientes sin EA, sino también a las diferentes fases de los pacientes con EA con un AUC cercano a 1. En el estudio de caso de pacientes con cáncer, el marco se aplicó a seis tipos de cánceres, es decir, cáncer de glioblastoma multiforme, cáncer de ovario, cáncer de pulmón, cáncer de mama, cáncer de riñón y cáncer de hígado. Integramos de manera eficiente la expresión génica, la expresión de miARN y la metilación del ADN. Los resultados mostraron que el modelo de clasificación basado en conjuntos de datos integrados era mucho más preciso que el modelo de clasificación basado en el tipo de datos único. Conclusiones Los resultados demostraron que el fMKL-DR mejora notablemente el coste computacional y la precisión tanto para el paciente con EA como para la estratificación del paciente con cáncer. Optimizamos la integración de datos, la reducción de dimensiones y la fusión del kernel. Nuestro marco tiene un gran potencial para extraer datos de cohortes a gran escala y ayudar a la prevención personalizada.

Files

s12911-020-01140-y.pdf

Files (2.9 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:4accc72695b75fa2e02d26fc9797bf74
2.9 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تقسيم المرضى إلى طبقات باستخدام إطار تعلم سريع متعدد النواة: دراسات حالة لمرض الزهايمر والسرطانات
Translated title (French)
Stratification des patients à l'aide d'un cadre d'apprentissage rapide à noyaux multiples : études de cas de la maladie d'Alzheimer et des cancers
Translated title (Spanish)
Estratificar a los pacientes utilizando el marco de aprendizaje rápido de múltiples núcleos: estudios de casos de enfermedad de Alzheimer y cánceres

Identifiers

Other
https://openalex.org/W3035016737
DOI
10.1186/s12911-020-01140-y

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1490308602
  • https://openalex.org/W1881305409
  • https://openalex.org/W1984303873
  • https://openalex.org/W1987219048
  • https://openalex.org/W1999693420
  • https://openalex.org/W2001502878
  • https://openalex.org/W2009463478
  • https://openalex.org/W2009849234
  • https://openalex.org/W2020024517
  • https://openalex.org/W2031014992
  • https://openalex.org/W2052570068
  • https://openalex.org/W2058046532
  • https://openalex.org/W2066081650
  • https://openalex.org/W2084705909
  • https://openalex.org/W2098017711
  • https://openalex.org/W2111913931
  • https://openalex.org/W2120539430
  • https://openalex.org/W2126598020
  • https://openalex.org/W2139967559
  • https://openalex.org/W2143972711
  • https://openalex.org/W2169278871
  • https://openalex.org/W2287247733
  • https://openalex.org/W2558685994
  • https://openalex.org/W2558927549
  • https://openalex.org/W2738940817
  • https://openalex.org/W2755156925
  • https://openalex.org/W2769989513
  • https://openalex.org/W2787172228
  • https://openalex.org/W3148981562