Published January 1, 2019 | Version v1
Publication Open

Filter-Based Factor Selection Methods in Partial Least Squares Regression

  • 1. National University of Sciences and Technology
  • 2. University of Azad Jammu and Kashmir
  • 3. Riphah International University

Description

Factor discovery of high-dimensional data is a crucial problem and extremely challenging from a scientific viewpoint with enormous applications in research studies.In this study, the main focus is to introduce the improved subset factor selection method and hence, 9 subset selection methods for partial least squares regression (PLSR) based on filter factor subset selection approach are proposed.Existing and proposed methods are compared in terms of accuracy, sensitivity, F1 score and number of selected factors over the simulated data set.Further, these methods are practiced on a real data set of nutritional status of children obtained from Pakistan Demographic and Health Survey (PDHS) by addressing performance using a Monte Carlo algorithm.The optimal method is implemented to assess the important factors of nutritional status of children.Dispersion importance (DIMP) factor selection index for PLSR is observed to be a more efficient method regarding accuracy and number of selected factors.The recommended factors contain key information for the nutritional status of children and could be useful in related research.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد اكتشاف عامل البيانات عالية الأبعاد مشكلة حاسمة وصعبة للغاية من وجهة نظر علمية مع تطبيقات هائلة في الدراسات البحثية. في هذه الدراسة، ينصب التركيز الرئيسي على تقديم طريقة اختيار مجموعة فرعية محسنة وبالتالي، يتم اقتراح 9 طرق اختيار مجموعة فرعية لانحدار المربعات الصغرى الجزئي (PLSR) بناءً على نهج اختيار مجموعة فرعية لعامل التصفية. تتم مقارنة الطرق الموجودة والمقترحة من حيث الدقة والحساسية ودرجة F1 وعدد العوامل المختارة على مجموعة البيانات المحاكاة. علاوة على ذلك، يتم ممارسة هذه الطرق على مجموعة بيانات حقيقية للحالة الغذائية للأطفال التي تم الحصول عليها من المسح الديموغرافي والصحي الباكستاني (PDHS) من خلال معالجة الأداء باستخدام خوارزمية مونت كارلو. يتم تنفيذ الطريقة المثلى لتقييم العوامل المهمة للحالة الغذائية للأطفال. يُلاحظ أن مؤشر اختيار عامل التشتتت (DIMP) لـ PLSR هو طريقة أكثر كفاءة فيما يتعلق بدقة وعدد العوامل المختارة. تحتوي العوامل الموصى بها على معلومات رئيسية للحالة الغذائية للأطفال ويمكن أن تكون مفيدة في الأبحاث ذات الصلة.

Translated Description (French)

La découverte de facteurs de données de grande dimension est un problème crucial et extrêmement difficile d'un point de vue scientifique avec d'énormes applications dans les études de recherche. Dans cette étude, l'objectif principal est d'introduire la méthode de sélection de facteurs de sous-ensemble améliorée et, par conséquent, 9 méthodes de sélection de sous-ensembles pour la régression partielle par les moindres carrés (PLSR) basées sur l'approche de sélection de sous-ensembles de facteurs de filtre sont proposées. Les méthodes existantes et proposées sont comparées en termes d'exactitude, de sensibilité, de score F1 et de nombre de facteurs sélectionnés sur l'ensemble de données simulées. En outre, ces méthodes sont pratiquées sur un ensemble de données réelles de l'état nutritionnel des enfants obtenues à partir de l'Enquête démographique et de santé du Pakistan (PDHS) en abordant la performance à l'aide d'un algorithme de Monte Carlo. La méthode optimale est mise en œuvre pour évaluer les facteurs importants de l'état nutritionnel des enfants. L'indice de sélection de facteurs d'importance de dispersion (DIMP) pour le PLSR est observé comme étant une méthode plus efficace en ce qui concerne l'exactitude et le nombre de facteurs sélectionnés. Les facteurs recommandés contiennent des informations clés pour l'état nutritionnel des enfants et pourraient être utiles dans la recherche connexe.

Translated Description (Spanish)

El descubrimiento de factores de datos de alta dimensión es un problema crucial y extremadamente desafiante desde un punto de vista científico con enormes aplicaciones en estudios de investigación. En este estudio, el enfoque principal es introducir el método mejorado de selección de factores de subconjuntos y, por lo tanto, se proponen 9 métodos de selección de subconjuntos para la regresión parcial de mínimos cuadrados (PLSR) basada en el enfoque de selección de subconjuntos de factores de filtro. Los métodos existentes y propuestos se comparan en términos de precisión, sensibilidad, puntuación F1 y número de factores seleccionados sobre el conjunto de datos simulados. Además, estos métodos se practican en un conjunto de datos reales del estado nutricional de los niños obtenidos de la Encuesta Demográfica y de Salud de Pakistán (PDHS) abordando el rendimiento utilizando un algoritmo de Monte Carlo. El método óptimo se implementa para evaluar los factores importantes del estado nutricional de los niños. Se observa que el índice de selección de factores de importancia de dispersión (DIMP) para PLSR es un método más eficiente con respecto a la precisión y el número de factores seleccionados. Los factores recomendados contienen información clave para el estado nutricional de los niños y podrían ser útiles en investigaciones relacionadas.

Files

08878103.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:2c2e76901d7e4effde6aaf09c3409c15
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
طرق اختيار العوامل القائمة على المرشح في انحدار المربعات الصغرى الجزئي
Translated title (French)
Méthodes de sélection des facteurs basées sur les filtres dans la régression partielle des moindres carrés
Translated title (Spanish)
Métodos de selección de factores basados en filtros en regresión parcial de mínimos cuadrados

Identifiers

Other
https://openalex.org/W2981380594
DOI
10.1109/access.2019.2948782

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1518640461
  • https://openalex.org/W1637967792
  • https://openalex.org/W1966793708
  • https://openalex.org/W1967137838
  • https://openalex.org/W1971358916
  • https://openalex.org/W1978355837
  • https://openalex.org/W1980033015
  • https://openalex.org/W1996195892
  • https://openalex.org/W1997526378
  • https://openalex.org/W2002448960
  • https://openalex.org/W2007808016
  • https://openalex.org/W2012642411
  • https://openalex.org/W2013005723
  • https://openalex.org/W2024876766
  • https://openalex.org/W2054625992
  • https://openalex.org/W2066751825
  • https://openalex.org/W2072546393
  • https://openalex.org/W2074431741
  • https://openalex.org/W2108619906
  • https://openalex.org/W2124137355
  • https://openalex.org/W2124834953
  • https://openalex.org/W2134594650
  • https://openalex.org/W2152797358
  • https://openalex.org/W2165987409
  • https://openalex.org/W2166615416
  • https://openalex.org/W2170917242
  • https://openalex.org/W2767627283
  • https://openalex.org/W2778221344
  • https://openalex.org/W2779746967
  • https://openalex.org/W2782176193
  • https://openalex.org/W2801964878
  • https://openalex.org/W2802349108
  • https://openalex.org/W2803783411