Published October 22, 2021 | Version v1
Publication

Evaluation of Data Imbalance Algorithms on the Prediction of Credit Card Fraud

Description

Credit card fraud has been on the rise for some years now after the introduction of card payment systems. To curb this menace, computational methods have been proposed. Unfortunately, the data available for such a study is highly skewed resulting in the data imbalance problem. In this study, the authors investigate the performance of some selected data imbalance algorithms employed in the prediction of credit card fraud. A dataset from Kaggle containing 284,315 genuine transactions and 492 fraudulent transactions was used for the evaluation. The machine learning algorithms deployed for the study is logistic regression, naïve bayes, and the k-nearest neighbour algorithm with F1 score and precision-recall area under the curve (PR AUC) as the metric. Numerical assessment of the performance of the adopted algorithm gave a rate of 82.5% and 81%, respectively, using neighbourhood cleaning rule for undersampling.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يتزايد الاحتيال على بطاقات الائتمان منذ بضع سنوات حتى الآن بعد إدخال أنظمة الدفع بالبطاقات. للحد من هذا الخطر، تم اقتراح طرق حسابية. لسوء الحظ، فإن البيانات المتاحة لمثل هذه الدراسة منحرفة للغاية مما يؤدي إلى مشكلة عدم توازن البيانات. في هذه الدراسة، يبحث المؤلفون في أداء بعض خوارزميات اختلال توازن البيانات المختارة المستخدمة في التنبؤ بالاحتيال على بطاقات الائتمان. تم استخدام مجموعة بيانات من Kaggle تحتوي على 284,315 معاملة حقيقية و 492 معاملة احتيالية للتقييم. خوارزميات التعلم الآلي المستخدمة في الدراسة هي الانحدار اللوجستي، والخوارزميات الساذجة، وخوارزمية أقرب الجيران مع درجة F1 ومنطقة الاسترجاع الدقيق تحت المنحنى (PR AUC) كمقياس. أعطى التقييم العددي لأداء الخوارزمية المعتمدة معدل 82.5 ٪ و 81 ٪ على التوالي، باستخدام قاعدة تنظيف الأحياء لنقص العينات.

Translated Description (French)

La fraude par carte de crédit est en hausse depuis quelques années après l'introduction des systèmes de paiement par carte. Pour freiner cette menace, des méthodes de calcul ont été proposées. Malheureusement, les données disponibles pour une telle étude sont très biaisées, ce qui entraîne le problème du déséquilibre des données. Dans cette étude, les auteurs étudient la performance de certains algorithmes de déséquilibre de données sélectionnés utilisés dans la prédiction de la fraude par carte de crédit. Un ensemble de données de Kaggle contenant 284 315 transactions authentiques et 492 transactions frauduleuses a été utilisé pour l'évaluation. Les algorithmes d'apprentissage automatique déployés pour l'étude sont la régression logistique, les baies naïves et l'algorithme du k plus proche voisin avec le score F1 et la zone de rappel de précision sous la courbe (PR AUC) comme métrique. L'évaluation numérique de la performance de l'algorithme adopté a donné un taux de 82,5% et 81%, respectivement, en utilisant la règle de nettoyage de quartier pour le sous-échantillonnage.

Translated Description (Spanish)

El fraude con tarjetas de crédito ha ido en aumento desde hace algunos años después de la introducción de los sistemas de pago con tarjeta. Para frenar esta amenaza, se han propuesto métodos computacionales. Desafortunadamente, los datos disponibles para tal estudio están muy sesgados, lo que resulta en el problema del desequilibrio de datos. En este estudio, los autores investigan el rendimiento de algunos algoritmos de desequilibrio de datos seleccionados empleados en la predicción del fraude con tarjetas de crédito. Para la evaluación se utilizó un conjunto de datos de Kaggle que contenía 284 315 transacciones genuinas y 492 transacciones fraudulentas. Los algoritmos de aprendizaje automático implementados para el estudio son la regresión logística, las bahías ingenuas y el algoritmo del vecino k más cercano con la puntuación F1 y el área bajo la curva de recuperación de precisión (PR AUC) como métrica. La evaluación numérica del rendimiento del algoritmo adoptado dio una tasa de 82.5% y 81%, respectivamente, utilizando la regla de limpieza del vecindario para el submuestreo.

Additional details

Additional titles

Translated title (Arabic)
تقييم خوارزميات اختلال توازن البيانات حول التنبؤ بتزوير بطاقات الائتمان
Translated title (French)
Évaluation des algorithmes de déséquilibre des données sur la prédiction de la fraude par carte de crédit
Translated title (Spanish)
Evaluación de Algoritmos de Desequilibrio de Datos en la Predicción de Fraude de Tarjetas de Crédito

Identifiers

Other
https://openalex.org/W3211886031
DOI
10.4018/ijiit.289967

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Ghana

References

  • https://openalex.org/W1780232652
  • https://openalex.org/W2015452969
  • https://openalex.org/W2603471627
  • https://openalex.org/W2621388707
  • https://openalex.org/W2749433718
  • https://openalex.org/W2772947247
  • https://openalex.org/W2810374509
  • https://openalex.org/W2883528737
  • https://openalex.org/W2930363294
  • https://openalex.org/W2966860114
  • https://openalex.org/W2972105914
  • https://openalex.org/W3005048680
  • https://openalex.org/W3006426972
  • https://openalex.org/W3006576387
  • https://openalex.org/W3015795707
  • https://openalex.org/W3022817742
  • https://openalex.org/W3025209066
  • https://openalex.org/W3034321207
  • https://openalex.org/W3082648102
  • https://openalex.org/W3128145622
  • https://openalex.org/W4243367342
  • https://openalex.org/W571200655