Published March 24, 2020 | Version v1
Publication Open

Data mining in mass spectrometry-based proteomics studies

  • 1. Ho Chi Minh City University of Technology
  • 2. Vietnam National University Ho Chi Minh City
  • 3. Tien Giang General Hospital

Description

The post-genomic era consists of experimental and computational efforts to meet the challenge of clarifying and understanding the function of genes and their products. Proteomic studies play a key role in this endeavour by complementing other functional genomics approaches, encompasses the large-scale analysis of complex mixtures, including the identification and quantification of proteins expressed under different conditions, the determination of their properties, modifications and functions. Understanding how biological processes are regulated at the protein level is crucial to understanding the molecular basis of diseases and often highlights the prevention, diagnosis and treatment of diseases. High-throughput technologies are widely used in proteomics to perform the analysis of thousands of proteins. Specifically, mass spectrometry (MS) is an analytical technique for characterizing biological samples and is increasingly used in protein studies because of its targeted, nontargeted, and high performance abilities. However, as large data sets are created, computational methods such as data mining techniques are required to analyze and interpret the relevant data. More specifically, the application of data mining techniques in large proteomic data sets can assist in many interpretations of data; it can reveal protein-protein interactions, improve protein identification, evaluate the experimental methods used and facilitate the diagnosis and biomarker discovery. With the rapid advances in mass spectrometry devices and experimental methodologies, MS-based proteomics has become a reliable and necessary tool for elucidating biological processes at the protein level. Over the past decade, we have witnessed a great expansion of our knowledge of human diseases with the adoption of proteomic technologies based on MS, which leads to many interesting discoveries. Here, we review recent advances of data mining in MS-based proteomics in biomedical research. Recent research in many fields shows that proteomics goes beyond the simple classification of proteins in biological systems and finally reaches its initial potential – as an essential tool to aid related disciplines, notably biomedical research. From here, there is great potential for data mining in MS-based proteomics to move beyond basic research, into clinical research and diagnostics.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يتكون عصر ما بعد الجينوم من جهود تجريبية وحسابية لمواجهة تحدي توضيح وفهم وظيفة الجينات ومنتجاتها. تلعب الدراسات البروتينية دورًا رئيسيًا في هذا المسعى من خلال استكمال مناهج علم الجينوم الوظيفي الأخرى، وتشمل التحليل واسع النطاق للمخاليط المعقدة، بما في ذلك تحديد البروتينات المعبر عنها في ظل ظروف مختلفة وتحديد خصائصها وتعديلاتها ووظائفها. يعد فهم كيفية تنظيم العمليات البيولوجية على مستوى البروتين أمرًا بالغ الأهمية لفهم الأساس الجزيئي للأمراض وغالبًا ما يسلط الضوء على الوقاية من الأمراض وتشخيصها وعلاجها. تُستخدم التقنيات عالية الإنتاجية على نطاق واسع في علم البروتينات لإجراء تحليل لآلاف البروتينات. على وجه التحديد، يعد قياس الطيف الكتلي (MS) تقنية تحليلية لتوصيف العينات البيولوجية ويستخدم بشكل متزايد في دراسات البروتين بسبب قدراته المستهدفة وغير المستهدفة وعالية الأداء. ومع ذلك، نظرًا لإنشاء مجموعات بيانات كبيرة، فإن الأساليب الحسابية مثل تقنيات استخراج البيانات مطلوبة لتحليل البيانات ذات الصلة وتفسيرها. وبشكل أكثر تحديدًا، يمكن أن يساعد تطبيق تقنيات استخراج البيانات في مجموعات البيانات البروتينية الكبيرة في العديد من تفسيرات البيانات ؛ يمكن أن يكشف عن تفاعلات البروتين والبروتين، ويحسن تحديد البروتين، ويقيم الطرق التجريبية المستخدمة ويسهل التشخيص واكتشاف المؤشرات الحيوية. مع التقدم السريع في أجهزة قياس الطيف الكتلي والمنهجيات التجريبية، أصبحت البروتينات القائمة على MS أداة موثوقة وضرورية لتوضيح العمليات البيولوجية على مستوى البروتين. على مدى العقد الماضي، شهدنا توسعًا كبيرًا في معرفتنا بالأمراض البشرية مع اعتماد التقنيات البروتينية القائمة على مرض التصلب العصبي المتعدد، مما يؤدي إلى العديد من الاكتشافات المثيرة للاهتمام. هنا، نستعرض التطورات الحديثة في استخراج البيانات في البروتينات القائمة على التصلب العصبي المتعدد في البحوث الطبية الحيوية. تُظهر الأبحاث الحديثة في العديد من المجالات أن علم البروتينات يتجاوز التصنيف البسيط للبروتينات في الأنظمة البيولوجية ويصل أخيرًا إلى إمكاناته الأولية – كأداة أساسية لمساعدة التخصصات ذات الصلة، ولا سيما البحوث الطبية الحيوية. من هنا، هناك إمكانات كبيرة لاستخراج البيانات في البروتينات القائمة على مرض التصلب العصبي المتعدد لتجاوز البحوث الأساسية، إلى البحوث السريرية والتشخيص.

Translated Description (French)

L'ère post-génomique consiste en des efforts expérimentaux et computationnels pour relever le défi de la clarification et de la compréhension de la fonction des gènes et de leurs produits. Les études protéomiques jouent un rôle clé dans cette entreprise en complétant d'autres approches génomiques fonctionnelles, englobant l'analyse à grande échelle de mélanges complexes, y compris l'identification et la quantification de protéines exprimées dans différentes conditions, la détermination de leurs propriétés, modifications et fonctions. Comprendre comment les processus biologiques sont régulés au niveau des protéines est crucial pour comprendre la base moléculaire des maladies et met souvent en évidence la prévention, le diagnostic et le traitement des maladies. Les technologies à haut débit sont largement utilisées en protéomique pour effectuer l'analyse de milliers de protéines. Plus précisément, la spectrométrie de masse (MS) est une technique analytique pour caractériser les échantillons biologiques et est de plus en plus utilisée dans les études sur les protéines en raison de ses capacités ciblées, non ciblées et de haute performance. Cependant, à mesure que de grands ensembles de données sont créés, des méthodes de calcul telles que des techniques d'exploration de données sont nécessaires pour analyser et interpréter les données pertinentes. Plus précisément, l'application de techniques d'exploration de données dans de grands ensembles de données protéomiques peut aider à de nombreuses interprétations de données ; elle peut révéler des interactions protéine-protéine, améliorer l'identification des protéines, évaluer les méthodes expérimentales utilisées et faciliter le diagnostic et la découverte de biomarqueurs. Avec les progrès rapides des dispositifs de spectrométrie de masse et des méthodologies expérimentales, la protéomique basée sur la SEP est devenue un outil fiable et nécessaire pour élucider les processus biologiques au niveau des protéines. Au cours de la dernière décennie, nous avons assisté à une grande expansion de nos connaissances sur les maladies humaines avec l'adoption de technologies protéomiques basées sur la SEP, ce qui a conduit à de nombreuses découvertes intéressantes. Ici, nous passons en revue les progrès récents de l'exploration de données en protéomique basée sur la SEP dans la recherche biomédicale. Des recherches récentes dans de nombreux domaines montrent que la protéomique va au-delà de la simple classification des protéines dans les systèmes biologiques et atteint enfin son potentiel initial – en tant qu'outil essentiel pour aider les disciplines connexes, notamment la recherche biomédicale. À partir de là, il existe un grand potentiel pour l'exploration de données en protéomique basée sur la SEP pour aller au-delà de la recherche fondamentale, vers la recherche clinique et le diagnostic.

Translated Description (Spanish)

La era posgenómica consiste en esfuerzos experimentales y computacionales para enfrentar el desafío de aclarar y comprender la función de los genes y sus productos. Los estudios proteómicos desempeñan un papel clave en este esfuerzo al complementar otros enfoques de genómica funcional, abarca el análisis a gran escala de mezclas complejas, incluida la identificación y cuantificación de proteínas expresadas en diferentes condiciones, la determinación de sus propiedades, modificaciones y funciones. Comprender cómo se regulan los procesos biológicos a nivel de proteínas es crucial para comprender las bases moleculares de las enfermedades y, a menudo, destaca la prevención, el diagnóstico y el tratamiento de las enfermedades. Las tecnologías de alto rendimiento se utilizan ampliamente en proteómica para realizar el análisis de miles de proteínas. Específicamente, la espectrometría de masas (EM) es una técnica analítica para caracterizar muestras biológicas y se utiliza cada vez más en estudios de proteínas debido a sus capacidades específicas, no específicas y de alto rendimiento. Sin embargo, a medida que se crean grandes conjuntos de datos, se requieren métodos computacionales como las técnicas de minería de datos para analizar e interpretar los datos relevantes. Más específicamente, la aplicación de técnicas de minería de datos en grandes conjuntos de datos proteómicos puede ayudar en muchas interpretaciones de datos; puede revelar interacciones proteína-proteína, mejorar la identificación de proteínas, evaluar los métodos experimentales utilizados y facilitar el diagnóstico y el descubrimiento de biomarcadores. Con los rápidos avances en los dispositivos de espectrometría de masas y las metodologías experimentales, la proteómica basada en la EM se ha convertido en una herramienta fiable y necesaria para dilucidar los procesos biológicos a nivel de proteínas. Durante la última década, hemos sido testigos de una gran expansión de nuestro conocimiento de las enfermedades humanas con la adopción de tecnologías proteómicas basadas en la EM, lo que lleva a muchos descubrimientos interesantes. Aquí, revisamos los avances recientes de la minería de datos en la proteómica basada en la EM en la investigación biomédica. Investigaciones recientes en muchos campos muestran que la proteómica va más allá de la simple clasificación de proteínas en sistemas biológicos y finalmente alcanza su potencial inicial, como una herramienta esencial para ayudar a las disciplinas relacionadas, especialmente la investigación biomédica. A partir de aquí, existe un gran potencial para que la minería de datos en la proteómica basada en la EM vaya más allá de la investigación básica, hacia la investigación clínica y el diagnóstico.

Files

874.pdf

Files (2.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:a33936f91352487e814853f8183ec4a1
2.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
استخراج البيانات في دراسات البروتينات القائمة على قياس الطيف الكتلي
Translated title (French)
Exploration de données dans les études de protéomique basées sur la spectrométrie de masse
Translated title (Spanish)
Minería de datos en estudios de proteómica basados en espectrometría de masas

Identifiers

Other
https://openalex.org/W3013640851
DOI
10.32508/stdjet.v2i4.483

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam