Published August 21, 2021 | Version v1
Publication Open

Missing values compensation in duplicates detection using hot deck method

  • 1. University of Aden
  • 2. Technical University of Malaysia Malacca

Description

Abstract Duplicate record is a common problem within data sets especially in huge volume databases. The accuracy of duplicate detection determines the efficiency of duplicate removal process. However, duplicate detection has become more challenging due to the presence of missing values within the records where during the clustering and matching process, missing values can cause records deemed similar to be inserted into the wrong group, hence, leading to undetected duplicates. In this paper, duplicate detection improvement was proposed despite the presence of missing values within a data set through Duplicate Detection within the Incomplete Data set (DDID) method. The missing values were hypothetically added to the key attributes of three data sets under study, using an arbitrary pattern to simulate both complete and incomplete data sets. The results were analyzed, then, the performance of duplicate detection was evaluated by using the Hot Deck method to compensate for the missing values in the key attributes. It was hypothesized that by using Hot Deck, duplicate detection performance would be improved. Furthermore, the DDID performance was compared to an early duplicate detection method namely DuDe, in terms of its accuracy and speed. The findings yielded that even though the data sets were incomplete, DDID was able to offer a better accuracy and faster duplicate detection as compared to DuDe. The results of this study offer insights into constraints of duplicate detection within incomplete data sets.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد السجل المكرر التجريدي مشكلة شائعة داخل مجموعات البيانات خاصة في قواعد بيانات الحجم الضخم. تحدد دقة الكشف عن التكرارات كفاءة عملية إزالة التكرارات. ومع ذلك، أصبح الكشف عن الازدواجية أكثر صعوبة بسبب وجود قيم مفقودة داخل السجلات حيث يمكن أن تتسبب القيم المفقودة أثناء عملية التجميع والمطابقة في إدراج سجلات مماثلة في المجموعة الخطأ، مما يؤدي إلى تكرار غير مكتشف. في هذه الورقة، تم اقتراح تحسين الكشف عن التكرارات على الرغم من وجود قيم مفقودة داخل مجموعة بيانات من خلال الكشف عن التكرارات ضمن طريقة مجموعة البيانات غير المكتملة (DDID). تمت إضافة القيم المفقودة افتراضيًا إلى السمات الرئيسية لثلاث مجموعات بيانات قيد الدراسة، باستخدام نمط اعتباطي لمحاكاة مجموعات البيانات الكاملة وغير الكاملة. تم تحليل النتائج، ثم تم تقييم أداء الكشف عن التكرارات باستخدام طريقة السطح الساخن للتعويض عن القيم المفقودة في السمات الرئيسية. تم افتراض أنه باستخدام سطح السفينة الساخن، سيتم تحسين أداء الكشف المكرر. علاوة على ذلك، تمت مقارنة أداء DDID بطريقة اكتشاف مكررة مبكرة وهي DuDe، من حيث دقتها وسرعتها. وأسفرت النتائج عن أنه على الرغم من أن مجموعات البيانات كانت غير مكتملة، إلا أن DDID كانت قادرة على تقديم دقة أفضل واكتشاف مكرر أسرع مقارنة بـ DuDe. تقدم نتائج هذه الدراسة رؤى حول قيود الكشف المكرر ضمن مجموعات البيانات غير المكتملة.

Translated Description (French)

Résumé L'enregistrement en double est un problème courant dans les ensembles de données, en particulier dans les bases de données à volume énorme. La précision de la détection des doublons détermine l'efficacité du processus de suppression des doublons. Cependant, la détection des doublons est devenue plus difficile en raison de la présence de valeurs manquantes dans les enregistrements. Au cours du processus de regroupement et de correspondance, les valeurs manquantes peuvent entraîner l'insertion d'enregistrements réputés similaires dans le mauvais groupe, ce qui entraîne des doublons non détectés. Dans cet article, une amélioration de la détection des doublons a été proposée malgré la présence de valeurs manquantes dans un ensemble de données grâce à la méthode de détection des doublons dans l'ensemble de données incomplètes (DDID). Les valeurs manquantes ont été hypothétiquement ajoutées aux attributs clés de trois ensembles de données à l'étude, en utilisant un modèle arbitraire pour simuler à la fois des ensembles de données complets et incomplets. Les résultats ont été analysés, puis la performance de la détection des doublons a été évaluée en utilisant la méthode Hot Deck pour compenser les valeurs manquantes dans les attributs clés. On a émis l'hypothèse qu'en utilisant Hot Deck, les performances de détection des doublons seraient améliorées. En outre, la performance DDID a été comparée à une méthode de détection précoce des doublons, à savoir DuDe, en termes de précision et de rapidité. Les résultats ont montré que même si les ensembles de données étaient incomplets, DDID était en mesure d'offrir une meilleure précision et une détection plus rapide des doublons par rapport à DuDe. Les résultats de cette étude offrent un aperçu des contraintes de détection des doublons dans des ensembles de données incomplets.

Translated Description (Spanish)

Resumen El registro duplicado es un problema común dentro de los conjuntos de datos, especialmente en bases de datos de gran volumen. La precisión de la detección de duplicados determina la eficiencia del proceso de eliminación de duplicados. Sin embargo, la detección de duplicados se ha vuelto más desafiante debido a la presencia de valores faltantes dentro de los registros, donde durante el proceso de agrupación y emparejamiento, los valores faltantes pueden hacer que los registros considerados similares se inserten en el grupo incorrecto, lo que lleva a duplicados no detectados. En este documento, se propuso la mejora de la detección de duplicados a pesar de la presencia de valores faltantes dentro de un conjunto de datos a través de la detección de duplicados dentro del método del conjunto de datos incompletos (DDID). Los valores faltantes se añadieron hipotéticamente a los atributos clave de tres conjuntos de datos en estudio, utilizando un patrón arbitrario para simular conjuntos de datos completos e incompletos. Los resultados se analizaron, luego, se evaluó el rendimiento de la detección de duplicados utilizando el método Hot Deck para compensar los valores faltantes en los atributos clave. Se planteó la hipótesis de que al usar Hot Deck, se mejoraría el rendimiento de la detección de duplicados. Además, el rendimiento del DDID se comparó con un método de detección temprana de duplicados, a saber, DuDe, en términos de su precisión y velocidad. Los hallazgos arrojaron que, aunque los conjuntos de datos estaban incompletos, el DDID pudo ofrecer una mejor precisión y una detección de duplicados más rápida en comparación con DuDe. Los resultados de este estudio ofrecen información sobre las limitaciones de la detección de duplicados dentro de conjuntos de datos incompletos.

Files

s40537-021-00502-1.pdf

Files (3.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:d69e482d4072536f731916261be01a92
3.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تعويض القيم المفقودة في الكشف عن التكرارات باستخدام طريقة السطح الساخن
Translated title (French)
Compensation des valeurs manquantes dans la détection des doublons à l'aide de la méthode Hot Deck
Translated title (Spanish)
Compensación de valores faltantes en la detección de duplicados utilizando el método de cubierta caliente

Identifiers

Other
https://openalex.org/W3165118285
DOI
10.1186/s40537-021-00502-1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Yemen

References

  • https://openalex.org/W1582201029
  • https://openalex.org/W1936150905
  • https://openalex.org/W1995099886
  • https://openalex.org/W2042913039
  • https://openalex.org/W2104511295
  • https://openalex.org/W2116781287
  • https://openalex.org/W2121424666
  • https://openalex.org/W2122131850
  • https://openalex.org/W2135942647
  • https://openalex.org/W2157468491
  • https://openalex.org/W2161370387
  • https://openalex.org/W2166988329
  • https://openalex.org/W2167011595
  • https://openalex.org/W2170674956
  • https://openalex.org/W2171710987
  • https://openalex.org/W2320366123
  • https://openalex.org/W2475932436
  • https://openalex.org/W2569876941
  • https://openalex.org/W2584402701
  • https://openalex.org/W2605690107
  • https://openalex.org/W2612457169
  • https://openalex.org/W2754627401
  • https://openalex.org/W2781143270
  • https://openalex.org/W2782976553
  • https://openalex.org/W2796406438
  • https://openalex.org/W2889578482
  • https://openalex.org/W2894986625
  • https://openalex.org/W2941197459
  • https://openalex.org/W3104667342
  • https://openalex.org/W3146259567
  • https://openalex.org/W4254788633