Published January 1, 2024 | Version v1
Publication Open

Sparse Variable Selection on High Dimensional Heterogeneous Data with Tree Structured Responses

  • 1. Jiangxi Normal University
  • 2. National University of Singapore
  • 3. Peking University
  • 4. Carnegie Mellon University
  • 5. Beijing University of Posts and Telecommunications

Description

We consider the problem of sparse variable selection on high dimension heterogeneous data sets, which has been taken on renewed interest recently due to the growth of biological and medical data sets with complex, non-i.i.d. structures and prolific response variables. The heterogeneity is likely to confound the association between explanatory variables and responses, resulting in a wealth of false discoveries when Lasso or its variants are na\ively applied. Therefore, the research interest of developing effective confounder correction methods is growing. However, ordinarily employing recent confounder correction methods will result in undesirable performance due to the ignorance of the convoluted interdependency among the prolific response variables. To fully improve current variable selection methods, we introduce a model that can utilize the dependency information from multiple responses to select the active variables from heterogeneous data. Through extensive experiments on synthetic and real data sets, we show that our proposed model outperforms the existing methods.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

نحن نعتبر مشكلة اختيار المتغيرات المتناثرة على مجموعات البيانات غير المتجانسة عالية الأبعاد، والتي تم أخذها باهتمام متجدد مؤخرًا بسبب نمو مجموعات البيانات البيولوجية والطبية ذات الهياكل المعقدة وغير المتجانسة ومتغيرات الاستجابة الغزيرة. من المرجح أن يؤدي عدم التجانس إلى الخلط بين الارتباط بين المتغيرات التفسيرية والاستجابات، مما يؤدي إلى ثروة من الاكتشافات الخاطئة عندما يتم تطبيق لاسو أو متغيراته بشكل فعال. لذلك، فإن الاهتمام البحثي بتطوير طرق فعالة لتصحيح الارتباك آخذ في الازدياد. ومع ذلك، فإن استخدام طرق تصحيح الارتباك الحديثة سيؤدي عادة إلى أداء غير مرغوب فيه بسبب الجهل بالترابط المعقد بين متغيرات الاستجابة الغزيرة. لتحسين طرق اختيار المتغيرات الحالية بشكل كامل، نقدم نموذجًا يمكنه استخدام معلومات التبعية من استجابات متعددة لتحديد المتغيرات النشطة من البيانات غير المتجانسة. من خلال تجارب مكثفة على مجموعات البيانات الاصطناعية والحقيقية، نظهر أن نموذجنا المقترح يتفوق على الأساليب الحالية.

Translated Description (French)

Nous considérons le problème de la sélection de variables clairsemées sur des ensembles de données hétérogènes de haute dimension, qui a récemment suscité un regain d'intérêt en raison de la croissance d'ensembles de données biologiques et médicales avec des structures complexes, non i.i.d. et des variables de réponse prolifiques. L'hétérogénéité est susceptible de confondre l'association entre les variables explicatives et les réponses, ce qui entraîne une multitude de fausses découvertes lorsque le Lasso ou ses variants sont appliqués naïvement. Par conséquent, l'intérêt de la recherche pour le développement de méthodes efficaces de correction des facteurs de confusion augmente. Cependant, l'utilisation habituelle de méthodes récentes de correction des facteurs de confusion entraînera des performances indésirables en raison de l'ignorance de l'interdépendance alambiquée entre les variables de réponse prolifiques. Pour améliorer pleinement les méthodes actuelles de sélection des variables, nous introduisons un modèle qui peut utiliser les informations de dépendance de plusieurs réponses pour sélectionner les variables actives à partir de données hétérogènes. Grâce à des expériences approfondies sur des ensembles de données synthétiques et réelles, nous montrons que notre modèle proposé surpasse les méthodes existantes.

Translated Description (Spanish)

Consideramos el problema de la escasa selección de variables en conjuntos de datos heterogéneos de alta dimensión, que ha adquirido un renovado interés recientemente debido al crecimiento de conjuntos de datos biológicos y médicos con estructuras complejas, no i.i.d. y variables de respuesta prolíficas. Es probable que la heterogeneidad confunda la asociación entre las variables explicativas y las respuestas, lo que resulta en una gran cantidad de descubrimientos falsos cuando Lasso o sus variantes se aplican ingenuamente. Por lo tanto, el interés de la investigación por desarrollar métodos efectivos de corrección de factores de confusión está creciendo. Sin embargo, el empleo habitual de métodos recientes de corrección de factores de confusión dará como resultado un rendimiento indeseable debido a la ignorancia de la enrevesada interdependencia entre las variables de respuesta prolíficas. Para mejorar completamente los métodos de selección de variables actuales, introducimos un modelo que puede utilizar la información de dependencia de múltiples respuestas para seleccionar las variables activas a partir de datos heterogéneos. A través de extensos experimentos con conjuntos de datos sintéticos y reales, demostramos que nuestro modelo propuesto supera a los métodos existentes.

Files

10488404.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:82d449cd15019be6e3636d7de36d1bf9
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
اختيار متغير متفرق على بيانات غير متجانسة عالية الأبعاد مع استجابات منظمة للشجرة
Translated title (French)
Sélection de variables éparses sur des données hétérogènes de haute dimension avec des réponses structurées en arborescence
Translated title (Spanish)
Selección de variables dispersas en datos heterogéneos de alta dimensión con respuestas estructuradas en árbol

Identifiers

Other
https://openalex.org/W2770857674
DOI
10.1109/access.2024.3384309

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1502873436
  • https://openalex.org/W1769664844
  • https://openalex.org/W2008933956
  • https://openalex.org/W2013866489
  • https://openalex.org/W2024165284
  • https://openalex.org/W2073161435
  • https://openalex.org/W2074682976
  • https://openalex.org/W2086021638
  • https://openalex.org/W2109363337
  • https://openalex.org/W2115718427
  • https://openalex.org/W2128873747
  • https://openalex.org/W2131994307
  • https://openalex.org/W2135046866
  • https://openalex.org/W2137797806
  • https://openalex.org/W2140047866
  • https://openalex.org/W2148870018
  • https://openalex.org/W2171837816
  • https://openalex.org/W2519452557
  • https://openalex.org/W2549139405
  • https://openalex.org/W2771266776
  • https://openalex.org/W2951859899
  • https://openalex.org/W2952201793
  • https://openalex.org/W3102205410
  • https://openalex.org/W3103144163