Detecção de fraudes na utilização de cartões usando a técnica de regressão logística: uma aplicação com dados desbalanceados

Carregando...
Imagem de Miniatura

Data

2022-03-26

Autores

Silva, Vitória de Oliveira

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Com o passar dos anos, o número de fraudes em cartões de crédito e débito vem crescendo e as maneiras como os fraudadores atuam são inovadas diariamente. Isso se dá por conta da ascensão do uso de cartões como forma de pagamento, que acompanha o avanço da tecnologia. Para identificar as fraudes e as atuações por trás delas, é necessário recorrer às estratégias, estudos e técnicas estatísticas que ajudarão a prever e detectar as ocorrências de fraudes. Uma situação comum nestes casos, é que a proporção de fraudes é muito pequena comparada a não fraude, consequentemente, os dados se tornam desbalanceados e necessitam ser tratados. No presente trabalho foram utilizados os métodos de Oversampling e Undersampling para balancear os dados utilizados e a técnica de Regressão Logística para detectar transações realizadas em cartões de crédito e débito que possuem cunho fraudulento. Para a aplicação, foram utilizados dados sintéticos gerados por um simulador, o qual se baseia em uma amostra de dados reais. Observou-se um severo desbalanceamento dos dados, tendo em vista que apenas 1,3% da base, após os devidos tratamentos, eram transações fraudulentas. Assim, foram feitas três aplicações do modelo, sendo uma com os dados desbalanceados e as outras duas usando os métodos de balanceamento, e notou-se que o Undersampling foi o método que apresentou melhores resultados.
Over the years, the number of credit and debit card frauds has been growing and the ways fraudsters act are innovated daily. This is due to the rise in the use of cards as a form of payment, which accompanies the advancement of technology. To identify frauds and the actions behind them, it is necessary to resort to strategies, studies and statistical techniques that will help to predict and detect fraud occurrences. A common situation in these cases is that the proportion of fraud is very small compared to non-fraud, consequently, the data becomes unbalanced and needs to be treated. In the present work, the Oversampling and Undersampling techniques were used to balance the data used and the Logistic Regression technique to detect fraudulent credit and debit card transactions. For the application, synthetic data generated by a simulator were used, which is based on a sample of real data. There was a severe imbalance in the data, considering that only 1.3% of the base, after the proper treatment, were fraudulent transactions. Thus, three applications of the model were made, one with unbalanced data and the other two using balancing methods, and it was noted that Undersampling was the method that presented the best results.

Descrição

Palavras-chave

Detecção de fraude, Dados desbalanceados, Regressão logística, Fraud detection, Unbalanced data, Logistic regression

Como citar