Identification of a minimum number of genes to predict triple-negative breast cancer subgroups from gene expression profiles
Creators
- Laila Akhouayri1
-
Paola Ostano2
-
Maurizia Mello-Grand2
- Ilaria Gregnanin2
- Francesca Crivelli2
- Sara Laurora2
- Daniele Liscia3
- Francesco Leone3
-
Angela Santoro4, 5
-
Antonino Mulè4, 5
- Donatella Guarino4, 5
- Claudia Maggiore4, 5
- Angela Carlino4, 5
-
Stefano Magno4, 5
-
Maria Scatolini2
-
Alba Di Leone4, 5
-
Riccardo Masetti4, 5
-
Giovanna Chiorino2
- 1. University of Hassan II Casablanca
- 2. Fondazione Edo ed Elvo Tempia
- 3. Ospedale degli Infermi
- 4. Agostino Gemelli University Polyclinic
- 5. Istituti di Ricovero e Cura a Carattere Scientifico
Description
Triple-negative breast cancer (TNBC) is a very heterogeneous disease. Several gene expression and mutation profiling approaches were used to classify it, and all converged to the identification of distinct molecular subtypes, with some overlapping across different approaches. However, a standardised tool to routinely classify TNBC in the clinics and guide personalised treatment is lacking. We aimed at defining a specific gene signature for each of the six TNBC subtypes proposed by Lehman et al. in 2011 (basal-like 1 (BL1); basal-like 2 (BL2); mesenchymal (M); immunomodulatory (IM); mesenchymal stem-like (MSL); and luminal androgen receptor (LAR)), to be able to accurately predict them.Lehman's TNBCtype subtyping tool was applied to RNA-sequencing data from 482 TNBC (GSE164458), and a minimal subtype-specific gene signature was defined by combining two class comparison techniques with seven attribute selection methods. Several machine learning algorithms for subtype prediction were used, and the best classifier was applied on microarray data from 72 Italian TNBC and on the TNBC subset of the BRCA-TCGA data set.We identified two signatures with the 120 and 81 top up- and downregulated genes that define the six TNBC subtypes, with prediction accuracy ranging from 88.6 to 89.4%, and even improving after removal of the least important genes. Network analysis was used to identify highly interconnected genes within each subgroup. Two druggable matrix metalloproteinases were found in the BL1 and BL2 subsets, and several druggable targets were complementary to androgen receptor or aromatase in the LAR subset. Several secondary drug-target interactions were found among the upregulated genes in the M, IM and MSL subsets.Our study took full advantage of available TNBC data sets to stratify samples and genes into distinct subtypes, according to gene expression profiles. The development of a data mining approach to acquire a large amount of information from several data sets has allowed us to identify a well-determined minimal number of genes that may help in the recognition of TNBC subtypes. These genes, most of which have been previously found to be associated with breast cancer, have the potential to become novel diagnostic markers and/or therapeutic targets for specific TNBC subsets.
Translated Descriptions
Translated Description (Arabic)
سرطان الثدي الثلاثي السلبي (TNBC) هو مرض غير متجانس للغاية. تم استخدام العديد من مناهج التعبير الجيني وتنميط الطفرات لتصنيفها، وتقاربت جميعها لتحديد أنواع فرعية جزيئية متميزة، مع تداخل بعضها عبر مناهج مختلفة. ومع ذلك، لا توجد أداة موحدة لتصنيف TNBC بشكل روتيني في العيادات وتوجيه العلاج الشخصي. لقد استهدفنا تحديد توقيع جيني محدد لكل نوع من الأنواع الفرعية الستة لـ TNBC التي اقترحها ليمان وآخرون في عام 2011 (تشبه القاعدة 1 (BL1) ؛ تشبه القاعدة 2 (BL2) ؛ متوسطة (M) ؛ مناعي (IM) ؛ تشبه الجذعية الوسيطة (MSL) ؛ ومستقبلات الاندروجين اللمعية (LAR))، لتكون قادرة على التنبؤ بها بدقة. تم تطبيق أداة النوع الفرعي لـ TNBC من ليمان على بيانات تسلسل الحمض النووي الريبي من 482 TNBC (GSE164458)، وتم تحديد الحد الأدنى من توقيع الجين الخاص بالنوع الفرعي من خلال الجمع بين فئتين من تقنيات المقارنة مع سبع طرق لاختيار السمات. تم استخدام العديد من خوارزميات التعلم الآلي للتنبؤ بالنوع الفرعي، وتم تطبيق أفضل مصنف على بيانات المصفوفة الدقيقة من 72 TNBC الإيطالي وعلى المجموعة الفرعية TNBC من مجموعة بيانات BRCA - TCGA. حددنا توقيعين مع الجينات الأعلى والأقل تنظيماً 120 و 81 التي تحدد الأنواع الفرعية الستة لـ TNBC، مع دقة تنبؤ تتراوح من 88.6 إلى 89.4 ٪، وحتى تتحسن بعد إزالة الجينات الأقل أهمية. تم استخدام تحليل الشبكة لتحديد الجينات المترابطة للغاية داخل كل مجموعة فرعية. تم العثور على اثنين من البروتينات الفلزية المصفوفية القابلة للتخدير في المجموعتين الفرعيتين BL1 و BL2، وكانت العديد من الأهداف القابلة للتخدير مكملة لمستقبلات الأندروجين أو الأروماتاز في المجموعة الفرعية LAR. تم العثور على العديد من التفاعلات الثانوية للأدوية المستهدفة بين الجينات المنظمة في المجموعات الفرعية M و IM و MSL. استفادت دراستنا استفادة كاملة من مجموعات بيانات TNBC المتاحة لتصنيف العينات والجينات إلى أنواع فرعية متميزة، وفقًا لملفات تعريف التعبير الجيني. سمح لنا تطوير نهج استخراج البيانات للحصول على كمية كبيرة من المعلومات من العديد من مجموعات البيانات بتحديد عدد أدنى محدد جيدًا من الجينات التي قد تساعد في التعرف على الأنواع الفرعية من TNBC. هذه الجينات، التي وجد سابقًا أن معظمها مرتبط بسرطان الثدي، لديها القدرة على أن تصبح علامات تشخيصية جديدة و/أو أهداف علاجية لمجموعات فرعية محددة من TNBC.Translated Description (French)
Le cancer du sein triple négatif (CSTN) est une maladie très hétérogène. Plusieurs approches d'expression génique et de profilage des mutations ont été utilisées pour le classer, et toutes ont convergé vers l'identification de sous-types moléculaires distincts, avec certains chevauchements entre différentes approches. Cependant, un outil standardisé permettant de classer systématiquement les CSTN dans les cliniques et de guider un traitement personnalisé fait défaut. Nous avons cherché à définir une signature génétique spécifique pour chacun des six sous-types de TNBC proposés par Lehman et al. en 2011 (basal-like 1 (BL1) ; basal-like 2 (BL2) ; mesenchymal (M) ; immunomodulateur (IM) ; mesenchymal stem-like (MSL) ; et luminal androgen receptor (LAR)), afin de pouvoir les prédire avec précision. L'outil de sous-typage de type TNBC de Lehman a été appliqué aux données de séquençage d'ARN de 482 TNBC (GSE164458), et une signature génétique minimale spécifique au sous-type a été définie en combinant deux techniques de comparaison de classe avec sept méthodes de sélection d'attributs. Plusieurs algorithmes d'apprentissage automatique pour la prédiction des sous-types ont été utilisés, et le meilleur classificateur a été appliqué sur les données de microréseaux de 72 TNBC italiens et sur le sous-ensemble TNBC de l'ensemble de données BRCA-TCGA. Nous avons identifié deux signatures avec les gènes régulés par le haut et par le bas 120 et 81 qui définissent les six sous-types de TNBC, avec une précision de prédiction allant de 88,6 à 89,4 %, et même s'améliorant après l'élimination des gènes les moins importants. L'analyse du réseau a été utilisée pour identifier les gènes hautement interconnectés au sein de chaque sous-groupe. Deux métalloprotéinases matricielles médicamenteuses ont été trouvées dans les sous-ensembles BL1 et BL2, et plusieurs cibles médicamenteuses étaient complémentaires du récepteur aux androgènes ou de l'aromatase dans le sous-ensemble LAR. Plusieurs interactions médicamenteuses cibles secondaires ont été trouvées parmi les gènes régulés à la hausse dans les sous-ensembles M, IM et MSL. Notre étude a tiré pleinement parti des ensembles de données TNBC disponibles pour stratifier les échantillons et les gènes en sous-types distincts, selon les profils d'expression des gènes. Le développement d'une approche d'exploration de données pour acquérir une grande quantité d'informations à partir de plusieurs ensembles de données nous a permis d'identifier un nombre minimal bien déterminé de gènes qui peuvent aider à la reconnaissance des sous-types de CSTN. Ces gènes, dont la plupart ont déjà été associés au cancer du sein, ont le potentiel de devenir de nouveaux marqueurs diagnostiques et/ou cibles thérapeutiques pour des sous-ensembles spécifiques de CSTN.Translated Description (Spanish)
El cáncer de mama triple negativo (CMTN) es una enfermedad muy heterogénea. Se utilizaron varios enfoques de expresión génica y perfiles de mutaciones para clasificarlo, y todos convergieron en la identificación de distintos subtipos moleculares, con algunos solapamientos entre diferentes enfoques. Sin embargo, se carece de una herramienta estandarizada para clasificar rutinariamente el CMTN en las clínicas y orientar el tratamiento personalizado. Nuestro objetivo fue definir una firma génica específica para cada uno de los seis subtipos de TNBC propuestos por Lehman et al. en 2011 (tipo basal 1 (BL1); tipo basal 2 (BL2); mesenquimal (M); inmunomodulador (IM); tipo tallo mesenquimal (MSL); y receptor de andrógenos luminal (lar)), para poder predecirlos con precisión. La herramienta de subtipificación de tipo TNBC de Lehman se aplicó a los datos de secuenciación de ARN de 482 TNBC (GSE164458), y se definió una firma génica mínima específica de subtipo combinando dos técnicas de comparación de clases con siete métodos de selección de atributos. Se utilizaron varios algoritmos de aprendizaje automático para la predicción de subtipos, y el mejor clasificador se aplicó a los datos de micromatrices de 72 TNBC italianos y al subconjunto de TNBC del conjunto de datos BRCA-TCGA. Identificamos dos firmas con los genes 120 y 81 regulados al alza y a la baja que definen los seis subtipos de TNBC, con una precisión de predicción que oscila entre el 88,6 y el 89,4%, e incluso mejorando después de la eliminación de los genes menos importantes. Se utilizó el análisis de red para identificar genes altamente interconectados dentro de cada subgrupo. Se encontraron dos metaloproteinasas de matriz farmacológicas en los subconjuntos BL1 y BL2, y varias dianas farmacológicas fueron complementarias al receptor de andrógenos o aromatasa en el subconjunto lar. Se encontraron varias interacciones secundarias fármaco-diana entre los genes regulados positivamente en los subconjuntos M, IM y MSL. Nuestro estudio aprovechó al máximo los conjuntos de datos TNBC disponibles para estratificar muestras y genes en distintos subtipos, de acuerdo con los perfiles de expresión génica. El desarrollo de un enfoque de minería de datos para adquirir una gran cantidad de información de varios conjuntos de datos nos ha permitido identificar un número mínimo bien determinado de genes que pueden ayudar en el reconocimiento de los subtipos de TNBC. Estos genes, la mayoría de los cuales se ha encontrado previamente que están asociados con el cáncer de mama, tienen el potencial de convertirse en nuevos marcadores de diagnóstico y/o dianas terapéuticas para subconjuntos específicos de TNBC.Files
s40246-022-00436-6.pdf
Files
(3.6 MB)
Name | Size | Download all |
---|---|---|
md5:1c3b164200c90ca5ae097e558cd91151
|
3.6 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحديد الحد الأدنى من الجينات للتنبؤ بالمجموعات الفرعية الثلاثية السلبية لسرطان الثدي من ملفات التعبير الجيني
- Translated title (French)
- Identification d'un nombre minimum de gènes pour prédire les sous-groupes de cancer du sein triple négatif à partir des profils d'expression génique
- Translated title (Spanish)
- Identificación de un número mínimo de genes para predecir subgrupos de cáncer de mama triple negativo a partir de perfiles de expresión génica
Identifiers
- Other
- https://openalex.org/W4311939666
- DOI
- 10.1186/s40246-022-00436-6
References
- https://openalex.org/W1160721367
- https://openalex.org/W1559427921
- https://openalex.org/W1964306359
- https://openalex.org/W1968840982
- https://openalex.org/W1989938935
- https://openalex.org/W1991607042
- https://openalex.org/W2008870230
- https://openalex.org/W2008947700
- https://openalex.org/W2026681323
- https://openalex.org/W2044702943
- https://openalex.org/W2064976189
- https://openalex.org/W2081815127
- https://openalex.org/W2092714850
- https://openalex.org/W2096283457
- https://openalex.org/W2097255042
- https://openalex.org/W2114505219
- https://openalex.org/W2114649913
- https://openalex.org/W2128338277
- https://openalex.org/W2134539328
- https://openalex.org/W2143204308
- https://openalex.org/W2147754115
- https://openalex.org/W2163158822
- https://openalex.org/W2169062126
- https://openalex.org/W2170602872
- https://openalex.org/W2173251415
- https://openalex.org/W2182398260
- https://openalex.org/W2259802687
- https://openalex.org/W2271190552
- https://openalex.org/W2300229781
- https://openalex.org/W2323293430
- https://openalex.org/W2344060455
- https://openalex.org/W2430731787
- https://openalex.org/W2464240475
- https://openalex.org/W2468700965
- https://openalex.org/W2508062996
- https://openalex.org/W2560367415
- https://openalex.org/W2582170064
- https://openalex.org/W2615473878
- https://openalex.org/W2725777854
- https://openalex.org/W2755770908
- https://openalex.org/W2766581433
- https://openalex.org/W2788106879
- https://openalex.org/W2797726290
- https://openalex.org/W2800788478
- https://openalex.org/W2808753359
- https://openalex.org/W2886991068
- https://openalex.org/W2889911732
- https://openalex.org/W2898034731
- https://openalex.org/W2910817347
- https://openalex.org/W2913872740
- https://openalex.org/W2944053255
- https://openalex.org/W2947053517
- https://openalex.org/W2954641213
- https://openalex.org/W2956085052
- https://openalex.org/W2962536070
- https://openalex.org/W2971607016
- https://openalex.org/W2979921705
- https://openalex.org/W2995712298
- https://openalex.org/W3000153381
- https://openalex.org/W3015053988
- https://openalex.org/W3018505120
- https://openalex.org/W3044428842
- https://openalex.org/W3088086152
- https://openalex.org/W3097621123
- https://openalex.org/W3098727476
- https://openalex.org/W3113159421
- https://openalex.org/W3130446412
- https://openalex.org/W3131840725
- https://openalex.org/W3136762110
- https://openalex.org/W3136835454
- https://openalex.org/W3140326616
- https://openalex.org/W3157371031
- https://openalex.org/W3178624708
- https://openalex.org/W3181447987
- https://openalex.org/W3197978811
- https://openalex.org/W4200573137
- https://openalex.org/W4210351028