Published January 1, 2017 | Version v1
Publication Open

The NoiseFiltersR Package: Label Noise Preprocessing in R

  • 1. Universidad de Granada
  • 2. Brazilian Society of Computational and Applied Mathematics
  • 3. Universidade de São Paulo
  • 4. Universidade Federal de São Paulo

Description

In Data Mining, the value of extracted knowledge is directly related to the quality of the used data.This makes data preprocessing one of the most important steps in the knowledge discovery process.A common problem affecting data quality is the presence of noise.A training set with label noise can reduce the predictive performance of classification learning techniques and increase the overfitting of classification models.In this work we present the NoiseFiltersR package.It contains the first extensive R implementation of classical and state-of-the-art label noise filters, which are the most common techniques for preprocessing label noise.The algorithms used for the implementation of the label noise filters are appropriately documented and referenced.They can be called in a R-user-friendly manner, and their results are unified by means of the "filter" class, which also benefits from adapted print and summary methods.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في استخراج البيانات، ترتبط قيمة المعرفة المستخرجة ارتباطًا مباشرًا بجودة البيانات المستخدمة. وهذا يجعل المعالجة المسبقة للبيانات واحدة من أهم الخطوات في عملية اكتشاف المعرفة. المشكلة الشائعة التي تؤثر على جودة البيانات هي وجود ضوضاء. يمكن لمجموعة التدريب ذات ضوضاء الملصقات أن تقلل من الأداء التنبئي لتقنيات تعلم التصنيف وتزيد من التكييف الزائد لنماذج التصنيف. في هذا العمل نقدم حزمة NoiseFiltersR. تحتوي على أول تطبيق R واسع النطاق لمرشحات الضوضاء الكلاسيكية والحديثة، والتي تعد أكثر التقنيات شيوعًا لمعالجة ضوضاء الملصقات مسبقًا. يتم توثيق الخوارزميات المستخدمة لتنفيذ مرشحات ضوضاء الملصقات بشكل مناسب والإشارة إليها. يمكن استدعاؤها بطريقة صديقة للمستخدم، ويتم توحيد نتائجها عن طريق فئة "المرشح"، والتي تستفيد أيضًا من طرق الطباعة والملخص المعدلة.

Translated Description (French)

Dans l'exploration de données, la valeur des connaissances extraites est directement liée à la qualité des données utilisées. Cela fait du prétraitement des données l'une des étapes les plus importantes du processus de découverte des connaissances. Un problème courant affectant la qualité des données est la présence de bruit. Un ensemble de formation avec du bruit d'étiquette peut réduire les performances prédictives des techniques d'apprentissage de classification et augmenter le surajustement des modèles de classification. Dans ce travail, nous présentons le package NoiseFiltersR. Il contient la première mise en œuvre étendue R des filtres de bruit d'étiquette classiques et de pointe, qui sont les techniques les plus courantes pour le prétraitement du bruit d'étiquette. Les algorithmes utilisés pour la mise en œuvre des filtres de bruit d'étiquette sont correctement documentés et référencés. Ils peuvent être appelés d'une manière conviviale pour l'utilisateur R, et leurs résultats sont unifiés au moyen de la classe « filtre », qui bénéficie également de méthodes d'impression et de résumé adaptées.

Translated Description (Spanish)

En Data Mining, el valor del conocimiento extraído está directamente relacionado con la calidad de los datos utilizados. Esto hace que el preprocesamiento de datos sea uno de los pasos más importantes en el proceso de descubrimiento de conocimiento. Un problema común que afecta la calidad de los datos es la presencia de ruido. Un conjunto de entrenamiento con ruido de etiqueta puede reducir el rendimiento predictivo de las técnicas de aprendizaje de clasificación y aumentar el sobreajuste de los modelos de clasificación. En este trabajo presentamos el paquete NoiseFiltersR. Contiene la primera implementación extensa de R de filtros de ruido de etiqueta clásicos y de última generación, que son las técnicas más comunes para preprocesar el ruido de etiqueta. Los algoritmos utilizados para la implementación de los filtros de ruido de etiqueta están debidamente documentados y referenciados. Se pueden llamar de una manera amigable para el usuario R, y sus resultados se unifican por medio de la clase "filtro", que también se beneficia de los métodos de impresión y resumen adaptados.

Files

RJ-2017-027.pdf.pdf

Files (180.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:4c76642e1f9549f8c102674a2998f959
180.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
حزمة NoiseFiltersR: المعالجة المسبقة لضوضاء الملصقات في R
Translated title (French)
Le package NoiseFiltersR : Pré-traitement du bruit d'étiquette en R
Translated title (Spanish)
El paquete NoiseFiltersR: preprocesamiento de ruido de etiqueta en R

Identifiers

Other
https://openalex.org/W2789526227
DOI
10.32614/rj-2017-027

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Brazil

References

  • https://openalex.org/W1548321542
  • https://openalex.org/W1591261915
  • https://openalex.org/W1596345407
  • https://openalex.org/W1612155886
  • https://openalex.org/W1667009198
  • https://openalex.org/W1808888563
  • https://openalex.org/W1822348759
  • https://openalex.org/W1831050183
  • https://openalex.org/W1973598714
  • https://openalex.org/W1979900513
  • https://openalex.org/W2012243161
  • https://openalex.org/W2033371754
  • https://openalex.org/W2034841618
  • https://openalex.org/W2107686700
  • https://openalex.org/W2115098571
  • https://openalex.org/W2124491466
  • https://openalex.org/W2137446405
  • https://openalex.org/W2144129629
  • https://openalex.org/W2151580670
  • https://openalex.org/W2164873210
  • https://openalex.org/W2167460663
  • https://openalex.org/W2206299551
  • https://openalex.org/W2469003029
  • https://openalex.org/W3100570787
  • https://openalex.org/W575847903