Published July 21, 2021 | Version v1
Publication

Advanced methods for missing values imputation based on similarity learning

  • 1. Benha University
  • 2. Nile University
  • 3. Prince Sultan University

Description

The real-world data analysis and processing using data mining techniques often are facing observations that contain missing values. The main challenge of mining datasets is the existence of missing values. The missing values in a dataset should be imputed using the imputation method to improve the data mining methods' accuracy and performance. There are existing techniques that use k-nearest neighbors algorithm for imputing the missing values but determining the appropriate k value can be a challenging task. There are other existing imputation techniques that are based on hard clustering algorithms. When records are not well-separated, as in the case of missing data, hard clustering provides a poor description tool in many cases. In general, the imputation depending on similar records is more accurate than the imputation depending on the entire dataset's records. Improving the similarity among records can result in improving the imputation performance. This paper proposes two numerical missing data imputation methods. A hybrid missing data imputation method is initially proposed, called KI, that incorporates k-nearest neighbors and iterative imputation algorithms. The best set of nearest neighbors for each missing record is discovered through the records similarity by using the k-nearest neighbors algorithm (kNN). To improve the similarity, a suitable k value is estimated automatically for the kNN. The iterative imputation method is then used to impute the missing values of the incomplete records by using the global correlation structure among the selected records. An enhanced hybrid missing data imputation method is then proposed, called FCKI, which is an extension of KI. It integrates fuzzy c-means, k-nearest neighbors, and iterative imputation algorithms to impute the missing data in a dataset. The fuzzy c-means algorithm is selected because the records can belong to multiple clusters at the same time. This can lead to further improvement for similarity. FCKI searches a cluster, instead of the whole dataset, to find the best k-nearest neighbors. It applies two levels of similarity to achieve a higher imputation accuracy. The performance of the proposed imputation techniques is assessed by using fifteen datasets with variant missing ratios for three types of missing data; MCAR, MAR, MNAR. These different missing data types are generated in this work. The datasets with different sizes are used in this paper to validate the model. Therefore, proposed imputation techniques are compared with other missing data imputation methods by means of three measures; the root mean square error (RMSE), the normalized root mean square error (NRMSE), and the mean absolute error (MAE). The results show that the proposed methods achieve better imputation accuracy and require significantly less time than other missing data imputation methods.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

غالبًا ما يواجه تحليل البيانات ومعالجتها في العالم الحقيقي باستخدام تقنيات استخراج البيانات ملاحظات تحتوي على قيم مفقودة. يتمثل التحدي الرئيسي لمجموعات بيانات التعدين في وجود قيم مفقودة. يجب احتساب القيم المفقودة في مجموعة البيانات باستخدام طريقة الاحتساب لتحسين دقة أساليب استخراج البيانات وأدائها. هناك تقنيات موجودة تستخدم خوارزمية أقرب الجيران لحساب القيم المفقودة ولكن تحديد قيمة k المناسبة يمكن أن يكون مهمة صعبة. هناك تقنيات إسناد أخرى موجودة تستند إلى خوارزميات التجميع العنقودي الصعبة. عندما لا تكون السجلات مفصولة بشكل جيد، كما في حالة البيانات المفقودة، يوفر التجميع العنقودي الصعب أداة وصف ضعيفة في كثير من الحالات. بشكل عام، يكون الاحتساب اعتمادًا على السجلات المماثلة أكثر دقة من الاحتساب اعتمادًا على سجلات مجموعة البيانات بأكملها. يمكن أن يؤدي تحسين التشابه بين السجلات إلى تحسين أداء الإسناد. تقترح هذه الورقة طريقتين رقميتين لحساب البيانات المفقودة. تم اقتراح طريقة احتساب البيانات المفقودة الهجينة في البداية، والتي تسمى KI، والتي تتضمن أقرب جيران k وخوارزميات الاحتساب التكراري. يتم اكتشاف أفضل مجموعة من الجيران الأقرب لكل سجل مفقود من خلال تشابه السجلات باستخدام خوارزمية أقرب الجيران (kNN). لتحسين التشابه، يتم تقدير قيمة k المناسبة تلقائيًا لـ kNN. ثم يتم استخدام طريقة الإسناد التكراري لإسناد القيم المفقودة للسجلات غير المكتملة باستخدام بنية الارتباط العالمية بين السجلات المحددة. ثم يتم اقتراح طريقة احتساب بيانات مفقودة هجينة محسنة، تسمى FCKI، وهي امتداد لـ KI. فهو يدمج وسائل c الغامضة، وأقرب جيران k، وخوارزميات الإسناد التكراري لإسناد البيانات المفقودة في مجموعة البيانات. يتم تحديد خوارزمية c - means الغامضة لأن السجلات يمكن أن تنتمي إلى مجموعات متعددة في نفس الوقت. هذا يمكن أن يؤدي إلى مزيد من التحسين للتشابه. يبحث FCKI في مجموعة، بدلاً من مجموعة البيانات بأكملها، للعثور على أفضل الجيران الأقرب إلى k. يطبق مستويين من التشابه لتحقيق دقة أعلى في الإسناد. يتم تقييم أداء تقنيات الإسناد المقترحة باستخدام خمس عشرة مجموعة بيانات مع نسب مفقودة متغيرة لثلاثة أنواع من البيانات المفقودة ؛ MCAR، MAR، MNAR. يتم إنشاء هذه الأنواع المختلفة من البيانات المفقودة في هذا العمل. يتم استخدام مجموعات البيانات ذات الأحجام المختلفة في هذه الورقة للتحقق من صحة النموذج. لذلك، تتم مقارنة تقنيات الإسناد المقترحة مع طرق إسناد البيانات المفقودة الأخرى عن طريق ثلاثة مقاييس ؛ متوسط الجذر التربيعي للخطأ (RMSE)، ومتوسط الجذر التربيعي للخطأ (NRMSE)، ومتوسط الخطأ المطلق (MAE). تظهر النتائج أن الطرق المقترحة تحقق دقة احتساب أفضل وتتطلب وقتًا أقل بكثير من طرق احتساب البيانات المفقودة الأخرى.

Translated Description (French)

L'analyse et le traitement des données du monde réel à l'aide de techniques d'exploration de données sont souvent confrontés à des observations qui contiennent des valeurs manquantes. Le principal défi des ensembles de données minières est l'existence de valeurs manquantes. Les valeurs manquantes dans un ensemble de données doivent être imputées à l'aide de la méthode d'imputation pour améliorer la précision et les performances des méthodes d'exploration de données. Il existe des techniques existantes qui utilisent l'algorithme des k plus proches voisins pour imputer les valeurs manquantes, mais la détermination de la valeur k appropriée peut être une tâche difficile. Il existe d'autres techniques d'imputation existantes qui sont basées sur des algorithmes de regroupement rigoureux. Lorsque les enregistrements ne sont pas bien séparés, comme dans le cas de données manquantes, le regroupement dur fournit un outil de description médiocre dans de nombreux cas. En général, l'imputation basée sur des enregistrements similaires est plus précise que l'imputation basée sur l'ensemble des enregistrements de l'ensemble de données. L'amélioration de la similitude entre les enregistrements peut entraîner une amélioration de la performance d'imputation. Cet article propose deux méthodes numériques d'imputation des données manquantes. Une méthode hybride d'imputation de données manquantes est initialement proposée, appelée KI, qui incorpore k voisins les plus proches et des algorithmes d'imputation itératifs. Le meilleur ensemble de voisins les plus proches pour chaque enregistrement manquant est découvert grâce à la similarité des enregistrements en utilisant l'algorithme des k voisins les plus proches (kNN). Pour améliorer la similitude, une valeur k appropriée est estimée automatiquement pour le kNN. La méthode d'imputation itérative est ensuite utilisée pour imputer les valeurs manquantes des enregistrements incomplets en utilisant la structure de corrélation globale parmi les enregistrements sélectionnés. Une méthode hybride améliorée d'imputation des données manquantes est ensuite proposée, appelée FCKI, qui est une extension de KI. Il intègre des c-moyens flous, des k-voisins les plus proches et des algorithmes d'imputation itératifs pour imputer les données manquantes dans un ensemble de données. L'algorithme c-means flou est sélectionné car les enregistrements peuvent appartenir à plusieurs clusters en même temps. Cela peut conduire à une amélioration supplémentaire de la similitude. FCKI recherche un cluster, au lieu de l'ensemble des données, pour trouver les meilleurs k voisins les plus proches. Il applique deux niveaux de similitude pour atteindre une précision d'imputation plus élevée. La performance des techniques d'imputation proposées est évaluée en utilisant quinze ensembles de données avec des ratios de variantes manquantes pour trois types de données manquantes ; MCAR, MAR, MNAR. Ces différents types de données manquantes sont générés dans ce travail. Les ensembles de données de différentes tailles sont utilisés dans cet article pour valider le modèle. Par conséquent, les techniques d'imputation proposées sont comparées à d'autres méthodes d'imputation de données manquantes au moyen de trois mesures ; l'erreur quadratique moyenne (RMSE), l'erreur quadratique moyenne normalisée (NRMSE) et l'erreur absolue moyenne (MAE). Les résultats montrent que les méthodes proposées atteignent une meilleure précision d'imputation et nécessitent beaucoup moins de temps que les autres méthodes d'imputation de données manquantes.

Translated Description (Spanish)

El análisis y procesamiento de datos del mundo real que utiliza técnicas de minería de datos a menudo se enfrenta a observaciones que contienen valores faltantes. El principal desafío de los conjuntos de datos mineros es la existencia de valores faltantes. Los valores que faltan en un conjunto de datos deben imputarse utilizando el método de imputación para mejorar la precisión y el rendimiento de los métodos de minería de datos. Existen técnicas existentes que utilizan el algoritmo k-vecinos más cercanos para imputar los valores faltantes, pero determinar el valor k apropiado puede ser una tarea desafiante. Existen otras técnicas de imputación que se basan en algoritmos de clúster duro. Cuando los registros no están bien separados, como en el caso de los datos faltantes, el agrupamiento duro proporciona una herramienta de descripción deficiente en muchos casos. En general, la imputación que depende de registros similares es más precisa que la imputación que depende de los registros de todo el conjunto de datos. Mejorar la similitud entre los registros puede mejorar el rendimiento de la imputación. Este documento propone dos métodos numéricos de imputación de datos faltantes. Inicialmente se propone un método híbrido de imputación de datos faltantes, llamado KI, que incorpora k vecinos más cercanos y algoritmos de imputación iterativos. El mejor conjunto de vecinos más cercanos para cada registro faltante se descubre a través de la similitud de registros utilizando el algoritmo de k vecinos más cercanos (kNN). Para mejorar la similitud, se estima automáticamente un valor k adecuado para el kNN. El método de imputación iterativa se utiliza para imputar los valores faltantes de los registros incompletos mediante el uso de la estructura de correlación global entre los registros seleccionados. Luego se propone un método híbrido mejorado de imputación de datos faltantes, llamado FCKI, que es una extensión de KI. Integra c-means difusas, k vecinos más cercanos y algoritmos de imputación iterativos para imputar los datos faltantes en un conjunto de datos. Se selecciona el algoritmo c-means difuso porque los registros pueden pertenecer a múltiples clústeres al mismo tiempo. Esto puede conducir a una mayor mejora de la similitud. FCKI busca en un clúster, en lugar de en todo el conjunto de datos, para encontrar los mejores k vecinos más cercanos. Aplica dos niveles de similitud para lograr una mayor precisión de imputación. El rendimiento de las técnicas de imputación propuestas se evalúa mediante el uso de quince conjuntos de datos con ratios faltantes variantes para tres tipos de datos faltantes; MCAR, MAR, MNAR. Estos diferentes tipos de datos faltantes se generan en este trabajo. Los conjuntos de datos con diferentes tamaños se utilizan en este documento para validar el modelo. Por lo tanto, las técnicas de imputación propuestas se comparan con otros métodos de imputación de datos faltantes mediante tres medidas; el error cuadrático medio (RMSE), el error cuadrático medio normalizado (NRMSE) y el error absoluto medio (MAE). Los resultados muestran que los métodos propuestos logran una mejor precisión de imputación y requieren significativamente menos tiempo que otros métodos de imputación de datos faltantes.

Additional details

Additional titles

Translated title (Arabic)
طرق متقدمة لحساب القيم المفقودة بناءً على تعلم التشابه
Translated title (French)
Méthodes avancées d'imputation des valeurs manquantes basées sur l'apprentissage de la similarité
Translated title (Spanish)
Métodos avanzados para la imputación de valores faltantes basados en el aprendizaje de similitudes

Identifiers

Other
https://openalex.org/W3187035773
DOI
10.7717/peerj-cs.619

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Egypt

References

  • https://openalex.org/W1560562394
  • https://openalex.org/W1571935154
  • https://openalex.org/W1972325286
  • https://openalex.org/W1973315244
  • https://openalex.org/W1981982250
  • https://openalex.org/W1983479840
  • https://openalex.org/W1993220086
  • https://openalex.org/W1995450389
  • https://openalex.org/W2058625230
  • https://openalex.org/W2074721350
  • https://openalex.org/W2082678545
  • https://openalex.org/W2091717512
  • https://openalex.org/W2096863518
  • https://openalex.org/W2099358357
  • https://openalex.org/W2105137706
  • https://openalex.org/W2115098571
  • https://openalex.org/W2162313689
  • https://openalex.org/W2174160981
  • https://openalex.org/W2188736480
  • https://openalex.org/W2480680997
  • https://openalex.org/W2493102529
  • https://openalex.org/W2735864302
  • https://openalex.org/W2746770821
  • https://openalex.org/W2793630790
  • https://openalex.org/W2886008386
  • https://openalex.org/W2916933545
  • https://openalex.org/W2949679216
  • https://openalex.org/W3004584189
  • https://openalex.org/W3011327475
  • https://openalex.org/W3030836817
  • https://openalex.org/W4237436570
  • https://openalex.org/W4245833769
  • https://openalex.org/W575847903