Data Science aplicado a detecção de fraudes em compras no cartão de crédito

Cmatheusrm
4 min readAug 10, 2022

A tecnologia vem trazendo benefícios enormes para humanidade e uma desses é a possibilidade de realizar compras sem sair de casa, porém nem tudo são flores, pois do mesmo jeito que a tecnologia facilita vidas, ela também abre portas para criminosos usarem de sua inteligência, assim usando da tecnologia para realizar crimes, um desses crimes que ficou bastante popular foi a realização de clone de cartões de crédito para fazer transações fraudulentas, os ditos “Bancos digitais” sofrem com isso quase que diariamente e para ajudar a enfrentar esse problema os bancos e fintechs aplicam data science para identificar padrões de transações fraudulentas e usam machine learning para ajudar na prevenção dos clientes

O projeto teve no total três partes: Análises, Modelagem, Deploy. Na etapa das análises vamos utilizar estatística para entender o que nossos dados falam sobre o problema, identificar quais features vamos utilizar para prever se uma ação é fraudulenta ou não. Primeiro vamos visualizar os nossos dados para identificar qual será a primeiro passo no tratamento dos dados que usaremos:

Aqui um dicionário para ajudar a entender melhor os dados:

Agora vamos realizar o primeiro tratamento que será modificar os campos onde temos data de timestamp para um formato mais legível:

Feito isso, vamos apagar a coluna “Unnamed: 0”, pois é uma coluna inútil para nossa análise, então iremos criar uma nova coluna que será nomeada como “age” indicando a idade da vítima que vai ser composta por uma subtração com a coluna trans_date (data da transação) e a coluna dob(data do nascimento da vítima):

Agora vamos unificar os dados de treino e teste, para começar nossas investigações:

Utilizando a lib seaborn vamos plotar um gráfico de barras para indicar o balanceamento da nossa variável alvo:

Podemos ver que temos mais dados marcados com 0 que indica não fraude, do que dados marcados com 1 que seria a fraude, mas isso não será um problema pois iremos balancear os dados por meio da biblioteca imblearn.

Então agora já podemos tirar algumas conclusões como por exemplo qual categoria de compras possui a maior taxa de fraudes?

Os primeiros lugares ficaram grocery_pos, shopping_net, misc_net.

As cidades com maiores taxas foram Dallas e Huston empatados, seguido por Birmingha, NY e Camdoen.

Os estados com maiores taxas foram :

Podemos ver no gráfico que estados com maiores fraudes são eles OH,TX, LA,WA.

Outro indicativo estudado foram as idades de vítima, o histograma abaixo trás esse indicativo:

Olhando esse histograma vemos que a maior taxa de golpes são feitos contra pessoas que possuem cerca de 49 a 59 anos.

Podemos fazer uma análise também nos empregos campeões entre os golpistas:

A gráfico acima afirma que os empregos que mais caem golpes são :

  1. Quantity surveyor
  2. Naval architect
  3. Materials engineer
  4. Audiological scientist
  5. Senior tax professional/ tax inspector

Então podemos concluir que o principal foco dos criminosos são pessoas que tenham por volta de 50 anos, more em alguma das cidades desses estados OH,TX, LA,WA e trabalhe em um dos empregos acima.

Bom essa é primeira parte do projeto no próximo artigo trarei o passo a passo da criação do modelo de machine learning usado para identificar quando a compra é uma fraude e quando não é. Bom até a próxima.

--

--

Cmatheusrm

Estudante de Engenharia de Software, Cientista de dados.