FDR2-BD: A Fast Data Reduction Recommendation Tool for Tabular Big Data Classification Problems
- 1. Instituto Andaluz de Ciencias de la Tierra
- 2. Universidad de Granada
- 3. Universidad Nacional de La Plata
- 4. Centro Científico Tecnológico - La Plata
Description
In this paper, a methodological data condensation approach for reducing tabular big datasets in classification problems is presented, named FDR2-BD. The key of our proposal is to analyze data in a dual way (vertical and horizontal), so as to provide a smart combination between feature selection to generate dense clusters of data and uniform sampling reduction to keep only a few representative samples from each problem area. Its main advantage is allowing the model's predictive quality to be kept in a range determined by a user's threshold. Its robustness is built on a hyper-parametrization process, in which all data are taken into consideration by following a k-fold procedure. Another significant capability is being fast and scalable by using fully optimized parallel operations provided by Apache Spark. An extensive experimental study is performed over 25 big datasets with different characteristics. In most cases, the obtained reduction percentages are above 95%, thus outperforming state-of-the-art solutions such as FCNN_MR that barely reach 70%. The most promising outcome is maintaining the representativeness of the original data information, with quality prediction values around 1% of the baseline.
Translated Descriptions
Translated Description (Arabic)
في هذه الورقة، يتم تقديم نهج منهجي لتكثيف البيانات لتقليل مجموعات البيانات الكبيرة المجدولة في مشاكل التصنيف، المسمى FDR2 - BD. يتمثل مفتاح اقتراحنا في تحليل البيانات بطريقة مزدوجة (رأسية وأفقية)، وذلك لتوفير مزيج ذكي بين اختيار الميزات لتوليد مجموعات كثيفة من البيانات وتقليل أخذ العينات بشكل موحد للحفاظ على عدد قليل فقط من العينات التمثيلية من كل منطقة مشكلة. وتتمثل ميزته الرئيسية في السماح بالحفاظ على الجودة التنبؤية للنموذج في نطاق يحدده عتبة المستخدم. تعتمد متانته على عملية فرط الباراميتر، حيث يتم أخذ جميع البيانات في الاعتبار باتباع إجراء k - fold. هناك قدرة كبيرة أخرى تتمثل في كونها سريعة وقابلة للتطوير باستخدام عمليات متوازية محسنة بالكامل توفرها Apache Spark. يتم إجراء دراسة تجريبية مكثفة على أكثر من 25 مجموعة بيانات كبيرة ذات خصائص مختلفة. في معظم الحالات، تكون نسب التخفيض التي تم الحصول عليها أعلى من 95 ٪، وبالتالي تتفوق على أحدث الحلول مثل FCNN_MR التي بالكاد تصل إلى 70 ٪. والنتيجة الواعدة هي الحفاظ على تمثيلية معلومات البيانات الأصلية، حيث تبلغ قيم التنبؤ بالجودة حوالي 1 ٪ من خط الأساس.Translated Description (French)
Dans cet article, une approche méthodologique de condensation des données pour réduire les grands ensembles de données tabulaires dans les problèmes de classification est présentée, appelée FDR2-BD. La clé de notre proposition est d'analyser les données de manière double (verticale et horizontale), afin de fournir une combinaison intelligente entre la sélection des caractéristiques pour générer des grappes de données denses et la réduction uniforme de l'échantillonnage pour ne conserver que quelques échantillons représentatifs de chaque zone problématique. Son principal avantage est de permettre de maintenir la qualité prédictive du modèle dans une plage déterminée par le seuil d'un utilisateur. Sa robustesse repose sur un processus d'hyper-paramétrisation, dans lequel toutes les données sont prises en compte en suivant une procédure k-fold. Une autre capacité importante est d'être rapide et évolutive en utilisant des opérations parallèles entièrement optimisées fournies par Apache Spark. Une étude expérimentale approfondie est réalisée sur 25 grands ensembles de données avec des caractéristiques différentes. Dans la plupart des cas, les pourcentages de réduction obtenus sont supérieurs à 95 %, surpassant ainsi les solutions de pointe telles que FCNN_MR qui atteignent à peine 70 %. Le résultat le plus prometteur est le maintien de la représentativité des informations de données d'origine, avec des valeurs de prédiction de qualité autour de 1% de la ligne de base.Translated Description (Spanish)
En este documento, se presenta un enfoque metodológico de condensación de datos para reducir los grandes conjuntos de datos tabulares en los problemas de clasificación, denominado FDR2-BD. La clave de nuestra propuesta es analizar los datos de una manera dual (vertical y horizontal), para proporcionar una combinación inteligente entre la selección de características para generar grupos densos de datos y la reducción uniforme del muestreo para mantener solo unas pocas muestras representativas de cada área problemática. Su principal ventaja es permitir que la calidad predictiva del modelo se mantenga en un rango determinado por el umbral de un usuario. Su robustez se basa en un proceso de hiperparametrización, en el que todos los datos se tienen en cuenta siguiendo un procedimiento k-fold. Otra capacidad importante es ser rápido y escalable mediante el uso de operaciones paralelas totalmente optimizadas proporcionadas por Apache Spark. Se realiza un extenso estudio experimental sobre 25 grandes conjuntos de datos con diferentes características. En la mayoría de los casos, los porcentajes de reducción obtenidos están por encima del 95%, superando así a soluciones de última generación como FCNN_MR que apenas alcanzan el 70%. El resultado más prometedor es mantener la representatividad de la información de los datos originales, con valores de predicción de calidad alrededor del 1% de la línea de base.Files
CONICET_Digital_Nro.7b0b5d47-a186-499b-896f-c25a9251d3ff_A.pdf.pdf
Files
(1.2 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:b4dea6c42bd349382d4ea98ab7f33634
|
1.2 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- FDR2 - BD: أداة توصية سريعة لتقليل البيانات لمشاكل تصنيف البيانات الكبيرة المجدولة
- Translated title (French)
- FDR2-BD : un outil de recommandation de réduction rapide des données pour les problèmes de classification tabulaire des mégadonnées
- Translated title (Spanish)
- FDR2-BD: una herramienta de recomendación rápida de reducción de datos para problemas tabulares de clasificación de Big Data
Identifiers
- Other
- https://openalex.org/W3185821901
- DOI
- 10.3390/electronics10151757
References
- https://openalex.org/W1473627731
- https://openalex.org/W1505753439
- https://openalex.org/W1570713908
- https://openalex.org/W1986515506
- https://openalex.org/W1997073273
- https://openalex.org/W2020033160
- https://openalex.org/W2040263621
- https://openalex.org/W2040775130
- https://openalex.org/W2068514419
- https://openalex.org/W2087295784
- https://openalex.org/W2110814438
- https://openalex.org/W2125055259
- https://openalex.org/W2132862423
- https://openalex.org/W2143821562
- https://openalex.org/W2151537585
- https://openalex.org/W2165250079
- https://openalex.org/W2173213060
- https://openalex.org/W2261525379
- https://openalex.org/W2537734429
- https://openalex.org/W2542459869
- https://openalex.org/W2587428921
- https://openalex.org/W2593875029
- https://openalex.org/W2606213502
- https://openalex.org/W2764005395
- https://openalex.org/W2781549732
- https://openalex.org/W2790031975
- https://openalex.org/W2790825252
- https://openalex.org/W2791315675
- https://openalex.org/W2803414046
- https://openalex.org/W2811000347
- https://openalex.org/W2902834302
- https://openalex.org/W2946728264
- https://openalex.org/W2948646149
- https://openalex.org/W2963288913
- https://openalex.org/W2978399804
- https://openalex.org/W2998216295
- https://openalex.org/W3021330142
- https://openalex.org/W3132451580
- https://openalex.org/W3147943130
- https://openalex.org/W4243830291