Análise de Dados de Empresa de E-commerce com SQL
Olá novamente!
Depois de ter aprendido sobre Python e suas principais bibliotecas para a Análise de Dados (pandas, numpy, matplotlib, etc.), bem como de ter realizado um projeto (que pode ser conferido aqui), resolvi dar continuidade a meus estudos na área de Ciência e Análise de Dados aprendendo um pouco sobre SQL e elaborando um projeto para fixar o conhecimento.
Após fazer alguns cursos gratuitos e ver vídeos sobre a ferramenta, peguei um dataset disponível no Kaggle e coloquei em prática o que aprendi, de modo que vou relatar o processo de análise a seguir.
Obtenção dos Dados e Primeiros Passos
O dataset que eu escolhi para análise é composto por 04 arquivos do tipo .csv, contendo dados de clientes, produtos, pedidos e vendas de uma empresa de varejo no segmento de vestuário, com foco no e-commerce e sediada na Austrália.
Como o intuito da análise é praticar os comandos e recursos do SQL, usei o DB Browser (SQLite) para compilar os arquivos do tipo .csv em um arquivo do tipo database (.db).
Feito isso, ainda usei o DB Browser para realizar algumas análises e modificações no conjunto de dados, tais como:
- Constatação de que não existem valores nulos ou registros duplicados;
- Alteração do tipo de registro de datas (de TEXT para DATE);
- Criação de atributos/colunas complementares; e
- Definição de chaves primárias e chaves estrangeiras (criação de um banco de dados relacional).
Com o dataset devidamente formatado, procedi com algumas análises para ter uma melhor noção acerca do tamanho e abrangência do mesmo, bem como para extrair algumas informações básicas sobre a operação da empresa.
Análise Inicial
Depois de ter usado o DB Browser para formatar o conjunto de dados, utilizei o Jupyter Notebook para continuar as análises, de modo a ter documentado as queries realizadas.
Para tanto, utilzei o pacote ipython-sql e executei os seguintes comandos para utilizar o SQL no Jupyter Notebook:
Carregada a extensão e feita a conexão com o dataset, comecei com a análise propriamente dita do conjunto de dados.
Primeiro, fiz uma análise do banco de dados de clientes da empresa, de modo que pode-se extrair as seguintes informações:
- Temos 1.000 clientes distintos cadastrados;
- Temos clientes do gênero masculino, feminino, não-binário, poligênero, entre outros;
- A média de idade dos clientes é de 50 anos; e
- Todos os clientes moram na Austrália, espalhados em 961 cidades diferentes.
Em seguida, realizei a análise do banco de dados de produtos da empresa, extraindo as seguintes informações:
- A empresa tem 03 tipos de produtos: jaquetas, camisas e calças; e
- Dentro desses 03 tipos de produtos temos: jaquetas bomber, calças cargo, vestidos, calças de moletom, camisas polo, jaquetas corta-vento, entre muitos outros;
Ainda, fiz uma rápida consulta no banco de dados de pedidos da empresa, constatando que estão cadastrados os pedidos realizados entre 01/01/2021 à 24/10/2021.
Por fim, analisei o banco de dados de vendas da empresa, de modo que levantei as seguintes informações:
- O número total de vendas é 5.000, totalizando US$ 1.031.800,00 em receita;
- O valor médio de venda é de US$ 206,36; e
- O valor máximo de venda foi de US$ 357,00, enquanto o valor mínimo foi de US$ 90,00.
Feita a análise individual dos bancos de dados da empresa, resolvi elaborar algumas perguntas fictícias de negócio para serem respondidas através de queries nos bancos de dados.
Perguntas de Negócio
Qual a faixa etária que mais comprou?
Para responder essa pergunta, primeiro tive que agrupar as idades em faixas etárias, adicionando uma nova coluna/atributo à base de dados de clientes.
Assim, agrupei as idades em 03 faixas etárias: Jovens (25 anos ou menos), Adultos (entre 25 e 59 anos) e Idosos (60 anos ou mais);
Para responder a pergunta, realizei a seguinte query:
Assim, podemos ver que 56.85% das vendas são feitas para Adultos, 31.63% para Idosos e 11.51% para Jovens.
Qual o gênero que mais comprou?
A query feita para responder a pergunta foi a seguinte:
Tratando de gêneros, podemos ver que não existe uma discrepância muito grande entre as vendas por gênero, mas são as mulheres que mais compram, representando 14.09% das vendas.
Qual o Estado que mais comprou?
Considerando que todos os clientes residem na Austrália, faz mais sentido fazer a análise geográfica das vendas por Estado, de modo que realizei a seguinte query:
Da mesma forma que os gêneros, não temos uma discrepância muito grande entre as vendas, sendo o Estado que mais comprou foi o Estado de South Australia, representando 14.33% das vendas.
Quais foram os meses com o maior número de vendas?
Para responder a pergunta, foi feita a seguinte query:
Considerando que o conjunto de dados possui registros de Janeiro a Outubro, podemos ver que os três melhores meses de venda (até agora) foram Março, Janeiro e Julho.
Quais os produtos mais vendidos?
Fiz a seguinte query para responder a pergunta:
O produto mais vendido no período foi a Jaqueta de Denim, representado 5.08% das vendas da empresa, seguida pela Camisa Slim Fit, a Jaqueta Trench, a Jaqueta Shearling e a Jaqueta Puffer.
Esses 05 produtos, somados, representam 18.89% das vendas da empresa no período.
Qual o tempo médio entre a data do pedido e a data de entrega?
Para responder a pergunta, a query feita foi essa:
O número médio de dias entre o pedido e a entrega do produto para o cliente é de 14 dias.
Qual o desempenho de vendas por trimestre?
Como não temos o dado em que trimestre o pedido foi feito, adicionei o atributo/coluna do trimestre no banco de dados de pedidos para facilitar a análise e responder ao questionamento de forma precisa.
Após, realizei a seguinte query para obter a resposta:
O Primeiro Trimestre (Janeiro a Março) foi o melhor período de vendas para a empresa.
Todavia, cabe ressaltar que o Quarto Trimestre tem somente as vendas do mês de Outubro, sendo esse o último mês que temos registros no conjunto de dados.
Conclusões
Bom, esse foi um projeto visando trazer alguns insights sobre a operação de uma empresa de varejo no segmento de vestuário, com foco no e-commerce.
Através da análise dos dados de clientes, produtos, pedidos e vendas da empresa, pude responder as perguntas de negócios e extrair algumas informações que podem influenciar em estratégias de vendas e publicidade, visando o aumento da receita e crescimento do negócio.
Acredito que consegui explorar bem os comandos de DDL, DML e DQL do SQL, de modo que não tive grandes dificuldades em realizar as queries e usar o relacionamento entre as tabelas para responder as peguntas de negócio.
Você pode conferir o projeto com mais detalhes no repositório do Github.
Sigam-me para acompanhar mais textos e projetos sobre ciência e análise de dados, e se quiserem, conectem-se comigo no Linkedin.
Até a próxima!