Published November 29, 2021 | Version v1
Publication Open

Feature Screening for Massive Data Analysis by Subsampling

  • 1. Fudan University
  • 2. Central University of Finance and Economics
  • 3. Peking University

Description

Modern statistical analysis often encounters massive datasets with ultrahigh-dimensional features. In this work, we develop a subsampling approach for feature screening with massive datasets. The approach is implemented by repeated subsampling of massive data and can be used for analyzing tasks with memory constraints. To conduct the procedure, we first calculate an R-squared screening measure (and related sample moments) based on subsamples. Second, we consider three methods to combine the local statistics. In addition to the simple average method, we design a jackknife debiased screening measure and an aggregated moment screening measure. Both approaches reduce the bias of the subsampling screening measure and therefore increase the accuracy of the feature screening. Last, we consider a novel sequential sampling method, that is more computationally efficient than the traditional random sampling method. The theoretical properties of the three screening measures under both sampling schemes are rigorously discussed. Finally, we illustrate the usefulness of the proposed method with an airline dataset containing 32.7 million records.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

غالبًا ما يواجه التحليل الإحصائي الحديث مجموعات بيانات ضخمة ذات ميزات فائقة الأبعاد. في هذا العمل، نقوم بتطوير نهج أخذ العينات الفرعية لفحص الميزات مع مجموعات البيانات الضخمة. يتم تنفيذ هذا النهج عن طريق أخذ عينات فرعية متكررة من البيانات الضخمة ويمكن استخدامه لتحليل المهام ذات قيود الذاكرة. لإجراء الإجراء، نقوم أولاً بحساب مقياس فحص R - squared (ولحظات العينة ذات الصلة) بناءً على العينات الفرعية. ثانيًا، ننظر في ثلاث طرق للجمع بين الإحصاءات المحلية. بالإضافة إلى طريقة المتوسط البسيط، نقوم بتصميم مقياس الفرز المنحاز بسكين ومقياس الفرز اللحظي المجمع. يقلل كلا النهجين من تحيز مقياس فحص العينات الفرعية وبالتالي يزيدان من دقة فحص الميزات. أخيرًا، نعتبر طريقة جديدة لأخذ العينات المتسلسلة، وهي أكثر كفاءة من الناحية الحسابية من طريقة أخذ العينات العشوائية التقليدية. تتم مناقشة الخصائص النظرية لتدابير الفرز الثلاثة في إطار كلا مخططي أخذ العينات بدقة. وأخيرًا، نوضح فائدة الطريقة المقترحة من خلال مجموعة بيانات لشركات الطيران تحتوي على 32.7 مليون سجل.

Translated Description (French)

L'analyse statistique moderne rencontre souvent des ensembles de données massifs avec des caractéristiques ultra-haute dimension. Dans ce travail, nous développons une approche de sous-échantillonnage pour le dépistage des caractéristiques avec des ensembles de données massifs. L'approche est mise en œuvre par sous-échantillonnage répété de données massives et peut être utilisée pour analyser des tâches avec des contraintes de mémoire. Pour mener à bien la procédure, nous calculons d'abord une mesure de dépistage au carré R (et les moments d'échantillonnage connexes) en fonction des sous-échantillons. Deuxièmement, nous considérons trois méthodes pour combiner les statistiques locales. En plus de la méthode de la moyenne simple, nous concevons une mesure de dépistage débiaisée par jackknife et une mesure de dépistage du moment agrégé. Les deux approches réduisent le biais de la mesure de dépistage du sous-échantillonnage et augmentent donc la précision du dépistage des caractéristiques. Enfin, nous considérons une nouvelle méthode d'échantillonnage séquentiel, qui est plus efficace sur le plan informatique que la méthode d'échantillonnage aléatoire traditionnelle. Les propriétés théoriques des trois mesures de dépistage dans le cadre des deux schémas d'échantillonnage sont rigoureusement discutées. Enfin, nous illustrons l'utilité de la méthode proposée avec un ensemble de données de compagnies aériennes contenant 32,7 millions d'enregistrements.

Translated Description (Spanish)

El análisis estadístico moderno a menudo se encuentra con conjuntos de datos masivos con características de ultra alta dimensión. En este trabajo, desarrollamos un enfoque de submuestreo para el cribado de características con conjuntos de datos masivos. El enfoque se implementa mediante el submuestreo repetido de datos masivos y se puede utilizar para analizar tareas con limitaciones de memoria. Para llevar a cabo el procedimiento, primero calculamos una medida de cribado R-cuadrado (y los momentos de muestra relacionados) en función de las submuestras. En segundo lugar, consideramos tres métodos para combinar las estadísticas locales. Además del método de la media simple, diseñamos una medida de cribado debiased de jackknife y una medida de cribado de momento agregado. Ambos enfoques reducen el sesgo de la medida de selección de submuestreo y, por lo tanto, aumentan la precisión de la selección de características. Por último, consideramos un nuevo método de muestreo secuencial, que es más eficiente computacionalmente que el método tradicional de muestreo aleatorio. Las propiedades teóricas de las tres medidas de cribado bajo ambos esquemas de muestreo se discuten rigurosamente. Finalmente, ilustramos la utilidad del método propuesto con un conjunto de datos de aerolíneas que contiene 32,7 millones de registros.

Files

31608133.pdf

Files (326.6 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:a992a72de8bc9463a3ff407fa7d3ac79
326.6 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
فحص الميزات للتحليل الهائل للبيانات عن طريق أخذ العينات الفرعية
Translated title (French)
Sélection des fonctionnalités pour une analyse massive des données par sous-échantillonnage
Translated title (Spanish)
Cribado de características para el análisis masivo de datos mediante submuestreo

Identifiers

Other
https://openalex.org/W3205049950
DOI
10.1080/07350015.2021.1990771

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1635119602
  • https://openalex.org/W1849963216
  • https://openalex.org/W1940621254
  • https://openalex.org/W1971040550
  • https://openalex.org/W2016119924
  • https://openalex.org/W2020695240
  • https://openalex.org/W2056938357
  • https://openalex.org/W2057742514
  • https://openalex.org/W2060170493
  • https://openalex.org/W2112315008
  • https://openalex.org/W2141635270
  • https://openalex.org/W2146774335
  • https://openalex.org/W2154560360
  • https://openalex.org/W2157825442
  • https://openalex.org/W2164092415
  • https://openalex.org/W2949372305
  • https://openalex.org/W2963200104
  • https://openalex.org/W2964231067
  • https://openalex.org/W2982674132
  • https://openalex.org/W2998175747
  • https://openalex.org/W3028903392
  • https://openalex.org/W3083698325
  • https://openalex.org/W3098603383
  • https://openalex.org/W3099924168
  • https://openalex.org/W3100058837
  • https://openalex.org/W3122008423