OCFSP: self-supervised one-class classification approach using feature-slide prediction subtask for feature data
Creators
- 1. University of Hradec Králové
- 2. Ho Chi Minh City University of Technology
Description
One-class classification (OCC) is a machine learning problem where training data has only one class. Recently, self-supervised OCC algorithms have been increasing attention. These algorithms train the model for pretext tasks and use the model error for OCC. However, these tasks are specialized for images, and applying them to feature data is not practical or appropriate for such a purpose. The motivation of this study is to apply self-supervised OCC to feature data. For this purpose, this paper proposes an OCC approach using feature-slide prediction (FSP) subtask for feature data (OCFSP). The main originality is the FSP subtask, which is the first classification subtask for feature data. In particular, the proposed method creates a self-labeled dataset by generating additional feature vectors with the feature slide of original vectors and self-annotating these vectors as the number of the slides. Such a dataset is applied to train a multi-class classifier to predict the number of feature slides. Since this classification model learns data from only one class, the FSP accuracy for a seen class is higher relative to unseen classes. Accordingly, OCC could be made using the accuracy of FSP. The proposed methods are experimented with using the imbalanced-learn, covtype, and kddcup datasets. OCFSP shows fair accuracy where few training data is given. In addition, classification subtask for feature data shows a relatively fast testing speed, unlike image data. Therefore, the bottleneck of the self-supervised approach is considered the memory size, which is the main difference between image and feature data. Source code is uploaded at https://github.com/ToshiHayashi/OCFSP
Translated Descriptions
Translated Description (Arabic)
تصنيف الصف الواحد (OCC) هو مشكلة تعلم آلي حيث تحتوي بيانات التدريب على فصل واحد فقط. في الآونة الأخيرة، كانت خوارزميات OCC الخاضعة للإشراف الذاتي تحظى باهتمام متزايد. تقوم هذه الخوارزميات بتدريب النموذج على مهام الذريعة واستخدام خطأ النموذج لـ OCC. ومع ذلك، فإن هذه المهام متخصصة في الصور، وتطبيقها على بيانات الميزات ليس عمليًا أو مناسبًا لمثل هذا الغرض. الدافع وراء هذه الدراسة هو تطبيق OCC الخاضع للإشراف الذاتي على عرض البيانات. لهذا الغرض، تقترح هذه الورقة نهج مركز تنسيق العمليات باستخدام مهمة فرعية للتنبؤ بشرائح الميزات (FSP) لبيانات الميزات (OCFSP). الأصالة الرئيسية هي المهمة الفرعية للشرطة السورية الحرة، وهي أول مهمة فرعية للتصنيف لبيانات الميزات. على وجه الخصوص، تنشئ الطريقة المقترحة مجموعة بيانات ذاتية التسمية من خلال توليد متجهات ميزة إضافية مع شريحة ميزة المتجهات الأصلية والتعليق الذاتي على هذه المتجهات كعدد الشرائح. يتم تطبيق مجموعة البيانات هذه لتدريب مصنف متعدد الفئات للتنبؤ بعدد شرائح الميزات. نظرًا لأن نموذج التصنيف هذا يتعلم البيانات من فئة واحدة فقط، فإن دقة FSP لفئة مرئية أعلى مقارنة بالفئات غير المرئية. وفقًا لذلك، يمكن إجراء OCC باستخدام دقة FSP. يتم تجربة الطرق المقترحة باستخدام مجموعات بيانات التعلم غير المتوازن و covtype و kddcup. يُظهر OCFSP دقة معقولة حيث يتم تقديم القليل من بيانات التدريب. بالإضافة إلى ذلك، تُظهر المهمة الفرعية للتصنيف لبيانات الميزات سرعة اختبار سريعة نسبيًا، على عكس بيانات الصورة. لذلك، يعتبر عنق الزجاجة في النهج الخاضع للإشراف الذاتي حجم الذاكرة، وهو الفرق الرئيسي بين بيانات الصورة والميزة. يتم تحميل شفرة المصدر على https://github.com/ToshiHayashi/OCFSPTranslated Description (French)
La classification à une classe (OCC) est un problème d'apprentissage automatique où les données de formation n'ont qu'une seule classe. Récemment, les algorithmes OCC autosurveillés ont attiré de plus en plus l'attention. Ces algorithmes entraînent le modèle pour les tâches de prétexte et utilisent l'erreur de modèle pour l'OCC. Cependant, ces tâches sont spécialisées dans les images et leur application aux données de caractéristiques n'est ni pratique ni appropriée à cette fin. La motivation de cette étude est d'appliquer l'OCC auto-supervisé aux données de caractéristiques. À cette fin, cet article propose une approche OCC utilisant une sous-tâche de prédiction de diapositives de caractéristiques (FSP) pour les données de caractéristiques (OCFSP). La principale originalité est la sous-tâche FSP, qui est la première sous-tâche de classification pour les données de caractéristiques. En particulier, le procédé proposé crée un ensemble de données auto-étiqueté en générant des vecteurs de caractéristiques supplémentaires avec la diapositive de caractéristiques des vecteurs originaux et en auto-annotant ces vecteurs en tant que nombre de diapositives. Un tel ensemble de données est appliqué pour former un classificateur à classes multiples afin de prédire le nombre de diapositives de fonctionnalités. Étant donné que ce modèle de classification apprend des données à partir d'une seule classe, la précision FSP pour une classe vue est plus élevée par rapport aux classes invisibles. En conséquence, l'OCC pourrait être réalisé en utilisant la précision du FSP. Les méthodes proposées sont expérimentées en utilisant les ensembles de données à apprentissage déséquilibré, covtype et kddcup. L'OCFSP montre une précision équitable lorsque peu de données de formation sont fournies. En outre, la sous-tâche de classification pour les données de caractéristiques montre une vitesse de test relativement rapide, contrairement aux données d'image. Par conséquent, le goulot d'étranglement de l'approche auto-surveillée est considéré comme la taille de la mémoire, qui est la principale différence entre les données d'image et les données de caractéristiques. Le code source est téléchargé sur https://github.com/ToshiHayashi/OCFSPTranslated Description (Spanish)
La clasificación de una clase (OCC) es un problema de aprendizaje automático en el que los datos de entrenamiento tienen solo una clase. Recientemente, los algoritmos OCC auto-supervisados han estado aumentando la atención. Estos algoritmos entrenan el modelo para tareas de pretexto y utilizan el error de modelo para OCC. Sin embargo, estas tareas están especializadas para imágenes, y aplicarlas a datos de características no es práctico ni apropiado para tal fin. La motivación de este estudio es aplicar OCC auto-supervisado a los datos de características. Para este propósito, este documento propone un enfoque de OCC utilizando la subtarea de predicción de diapositivas de características (FSP) para datos de características (OCFSP). La originalidad principal es la subtarea FSP, que es la primera subtarea de clasificación para los datos de funciones. En particular, el método propuesto crea un conjunto de datos autoetiquetado mediante la generación de vectores de características adicionales con la diapositiva de características de los vectores originales y la autoanotación de estos vectores como el número de diapositivas. Dicho conjunto de datos se aplica para entrenar a un clasificador de varias clases para predecir el número de diapositivas de características. Dado que este modelo de clasificación aprende datos de una sola clase, la precisión de FSP para una clase vista es mayor en relación con las clases invisibles. En consecuencia, el OCC podría realizarse utilizando la precisión del FSP. Los métodos propuestos se experimentan con el uso de los conjuntos de datos imbalanced-learn, covtype y kddcup. OCFSP muestra una precisión razonable cuando se proporcionan pocos datos de capacitación. Además, la subtarea de clasificación para los datos de características muestra una velocidad de prueba relativamente rápida, a diferencia de los datos de imágenes. Por lo tanto, el cuello de botella del enfoque auto-supervisado se considera el tamaño de la memoria, que es la principal diferencia entre los datos de imagen y de características. El código fuente se carga en https://github.com/ToshiHayashi/OCFSPFiles
latest.pdf.pdf
Files
(880.4 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:9c2ca17bb89edd2f1d8ed35395aecc2e
|
880.4 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- OCFSP: نهج تصنيف من فئة واحدة يخضع للإشراف الذاتي باستخدام مهمة فرعية للتنبؤ بشرائح الميزات لبيانات الميزات
- Translated title (French)
- OCFSP : approche de classification auto-supervisée à classe unique utilisant une sous-tâche de prédiction de diapositive de fonction pour les données de fonction
- Translated title (Spanish)
- OCFSP: enfoque de clasificación de una clase auto-supervisado que utiliza la subtarea de predicción de diapositivas de características para los datos de características
Identifiers
- Other
- https://openalex.org/W4295965791
- DOI
- 10.1007/s00500-022-07414-z
References
- https://openalex.org/W1876967670
- https://openalex.org/W2015245929
- https://openalex.org/W2132870739
- https://openalex.org/W2144182447
- https://openalex.org/W2296719434
- https://openalex.org/W2437615532
- https://openalex.org/W2592929672
- https://openalex.org/W2597034309
- https://openalex.org/W2766123252
- https://openalex.org/W2794951181
- https://openalex.org/W2800395558
- https://openalex.org/W2804316532
- https://openalex.org/W2808472075
- https://openalex.org/W2932812535
- https://openalex.org/W2961858021
- https://openalex.org/W2962981269
- https://openalex.org/W2963878656
- https://openalex.org/W2966515423
- https://openalex.org/W2997591727
- https://openalex.org/W2997994114
- https://openalex.org/W3006123093
- https://openalex.org/W3038625188
- https://openalex.org/W3041467534
- https://openalex.org/W3047926930
- https://openalex.org/W3104279205
- https://openalex.org/W3119363261
- https://openalex.org/W3121254101
- https://openalex.org/W3127276455
- https://openalex.org/W3153539640
- https://openalex.org/W3167938468
- https://openalex.org/W3177295158
- https://openalex.org/W3184441495
- https://openalex.org/W3185165902
- https://openalex.org/W3204055415