Black Friday

Karinne Cristina
6 min readAug 27, 2019

--

Análise Exploratória de Dados(EDA)

Vamos extrair alguns insights da base de dados Black Friday da plataforma Analytics Vidhya Datahack. Onde o objetivo é entender o comportamento do cliente (especificamente, o valor da compra em dólares) contra vários produtos de diferentes categorias.

Site: https://datahack.analyticsvidhya.com/contest/black-friday/

Descrição das variáveis:

User_ID → ID do usuário
Product_ID → ID do produto
Gender → Sexo
Age → Idade
Occupation → Ocupação
City_Category → Categoria da cidade
Stay_In_Current_City_Years → Número de anos na cidade atual
Marital_Status → Estado civil
Product_Category_1 → categoria do produto
Product_Category_2 → categoria do produto(esse produto pode pertencer a outra categoria)
Product_Category_3 → categoria do produto(esse produto pode pertencer a outra categoria)
Purchase → Valor da compra (variável de destino)

Visualização dos dados:

Pronto! Já sabemos quais são as variáveis do nosso conjunto de dados e seus tipos. Mas antes de começar a plotar nossos gráficos vamos dar uma olhada no resumo estatístico das nossas variáveis.

Mão na massa

começaremos a nossa análise verificando a distribuição da nossa variável alvo (Purchase).

Até o momento a única informação que temos é que existe uma maior concentração entre os valores de 5000 a 10000 dólares. Seria mais interessante plotarmos um gráfico de boxplot para uma melhor avaliação da distribuição desses dados, além disso podemos facilmente descobrir se temos outliers.

E olha só esse gráfico acaba de nos dar uma informação muito importante, temos outliers na nossa variável alvo. Podemos facilmente afirmar que os valores de compra acima de 20000 dólares são outliers.

Agora vamos tentar responder algumas perguntas sobre os nossos dados.

Será que temos mais usuários do sexo masculino ou do sexo feminino?

Qual o valor médio da compra para cada sexo?

Bom, o que podemos observar é que temos um número bem maior de usuários do sexo masculino e que o valor da compra também tende a ser um pouco maior que a do sexo feminino.

Qual é a idade predominante entre esses usuários?

Observe que a faixa etária entre os usuários se concentra entre 26 a 30 anos, mais ainda não conseguimos saber se nessa faixa etária temos mais homens ou mulheres. O código a seguir agrupa os dados por sexo e faz a contagem dos registros por faixa etária.

Agora sim podemos dizer que temos mais homens que mulheres na faixa etária de 26 a 30 anos.

Qual o valor médio de compra para cada faixa etária?

O valor médio de compra está bem distribuído entre as idades, com o valor um pouco menor na faixa etária de 0 a 17 anos.

Vamos observar o número de consumidores por ocupação.

Temos algumas ocupações com maior concentração de valores, só não sabemos que ocupações são essas, já que a empresa preferiu mascarar essa informação.

De qual categoria é a cidade com o maior número de usuários?

Qual a média de compra por cidade?

Chegamos a seguinte conclusão: o maior número de usuários pertence a cidade de categoria B, porém a cidade de categoria C tem o maior valor médio de compra.

A quantos anos o usuário mora na cidade atual?

Qual a média do valor da compra de acordo com o número de anos que o usuário mora na cidade atual?

De acordo com os nossos gráficos os usuários na sua grande maioria moram há 1 ano na cidade atual.

Agora queremos saber qual o estado civil dos usuários.

Qual o valor médio de compra para cada estado civil?

Por default 0 = False e 1 = True, ou seja 0 não é casado e 1 é casado. Dito isso fica claro que os usuários em sua maioria não são casados.

Vamos analisar algumas informações sobre a categoria dos produtos.

Os produtos da categoria 1 que pertencem ao grupo 19 e 20 são outliers.

Já na categoria 2, temos uma maior quantidade de produtos do grupo 8. Podemos observar também que o produto do grupo 10 teve o maior valor médio de compra.

Na categoria 3 temos o produto do grupo 3 com a menor quantidade. Dando uma verificada mais detalhada, chegamos a uma informação importante, na categoria 2 e 3 temos um valor médio de compra bem próximo para os produtos do grupo 10.

Agora vamos verificar graficamente as informações citadas acima.

E por último mais não menos importante, temos a matriz de correlação, que nos possibilita fazer uma análise simultânea da associação entre as variáveis.

Um ponto importante a se observar é a alta correlação entre a categoria dos produtos. Isso já era esperado uma vez que foi dito que um produto pode pertencer a mais de uma categoria.

Ufa! Parece que terminamos.

Meu objetivo principal foi mostrar como podemos extrair importantes informações através de técnicas estatísticas e visualização de dados.
Abaixo vou resumir o que foi descoberto.
- A maioria dos usuários é do sexo masculino
- Com idade entre 26 a 30 anos
- Não são casados
- Residem na cidade de categoria B
- Moram 1 ano na cidade atual
- E compraram mais produtos da categoria 1.

Como o intuito principal foi dar ênfase nos gráficos, estarei disponibilizando o notebook completo no meu Github (https://github.com/karinnecristina)

--

--