Análise de Dados de Empresa de E-commerce com SQL

Nicolas Doege
comunidadeds
Published in
6 min readJul 20, 2022

Olá novamente!

Depois de ter aprendido sobre Python e suas principais bibliotecas para a Análise de Dados (pandas, numpy, matplotlib, etc.), bem como de ter realizado um projeto (que pode ser conferido aqui), resolvi dar continuidade a meus estudos na área de Ciência e Análise de Dados aprendendo um pouco sobre SQL e elaborando um projeto para fixar o conhecimento.

Após fazer alguns cursos gratuitos e ver vídeos sobre a ferramenta, peguei um dataset disponível no Kaggle e coloquei em prática o que aprendi, de modo que vou relatar o processo de análise a seguir.

Obtenção dos Dados e Primeiros Passos

O dataset que eu escolhi para análise é composto por 04 arquivos do tipo .csv, contendo dados de clientes, produtos, pedidos e vendas de uma empresa de varejo no segmento de vestuário, com foco no e-commerce e sediada na Austrália.

Como o intuito da análise é praticar os comandos e recursos do SQL, usei o DB Browser (SQLite) para compilar os arquivos do tipo .csv em um arquivo do tipo database (.db).

Feito isso, ainda usei o DB Browser para realizar algumas análises e modificações no conjunto de dados, tais como:

  • Constatação de que não existem valores nulos ou registros duplicados;
  • Alteração do tipo de registro de datas (de TEXT para DATE);
  • Criação de atributos/colunas complementares; e
  • Definição de chaves primárias e chaves estrangeiras (criação de um banco de dados relacional).

Com o dataset devidamente formatado, procedi com algumas análises para ter uma melhor noção acerca do tamanho e abrangência do mesmo, bem como para extrair algumas informações básicas sobre a operação da empresa.

Análise Inicial

Depois de ter usado o DB Browser para formatar o conjunto de dados, utilizei o Jupyter Notebook para continuar as análises, de modo a ter documentado as queries realizadas.

Para tanto, utilzei o pacote ipython-sql e executei os seguintes comandos para utilizar o SQL no Jupyter Notebook:

Carregada a extensão e feita a conexão com o dataset, comecei com a análise propriamente dita do conjunto de dados.

Primeiro, fiz uma análise do banco de dados de clientes da empresa, de modo que pode-se extrair as seguintes informações:

  • Temos 1.000 clientes distintos cadastrados;
  • Temos clientes do gênero masculino, feminino, não-binário, poligênero, entre outros;
  • A média de idade dos clientes é de 50 anos; e
  • Todos os clientes moram na Austrália, espalhados em 961 cidades diferentes.

Em seguida, realizei a análise do banco de dados de produtos da empresa, extraindo as seguintes informações:

  • A empresa tem 03 tipos de produtos: jaquetas, camisas e calças; e
  • Dentro desses 03 tipos de produtos temos: jaquetas bomber, calças cargo, vestidos, calças de moletom, camisas polo, jaquetas corta-vento, entre muitos outros;

Ainda, fiz uma rápida consulta no banco de dados de pedidos da empresa, constatando que estão cadastrados os pedidos realizados entre 01/01/2021 à 24/10/2021.

Por fim, analisei o banco de dados de vendas da empresa, de modo que levantei as seguintes informações:

  • O número total de vendas é 5.000, totalizando US$ 1.031.800,00 em receita;
  • O valor médio de venda é de US$ 206,36; e
  • O valor máximo de venda foi de US$ 357,00, enquanto o valor mínimo foi de US$ 90,00.

Feita a análise individual dos bancos de dados da empresa, resolvi elaborar algumas perguntas fictícias de negócio para serem respondidas através de queries nos bancos de dados.

Perguntas de Negócio

Qual a faixa etária que mais comprou?

Para responder essa pergunta, primeiro tive que agrupar as idades em faixas etárias, adicionando uma nova coluna/atributo à base de dados de clientes.

Assim, agrupei as idades em 03 faixas etárias: Jovens (25 anos ou menos), Adultos (entre 25 e 59 anos) e Idosos (60 anos ou mais);

Para responder a pergunta, realizei a seguinte query:

Assim, podemos ver que 56.85% das vendas são feitas para Adultos, 31.63% para Idosos e 11.51% para Jovens.

Qual o gênero que mais comprou?

A query feita para responder a pergunta foi a seguinte:

Tratando de gêneros, podemos ver que não existe uma discrepância muito grande entre as vendas por gênero, mas são as mulheres que mais compram, representando 14.09% das vendas.

Qual o Estado que mais comprou?

Considerando que todos os clientes residem na Austrália, faz mais sentido fazer a análise geográfica das vendas por Estado, de modo que realizei a seguinte query:

Da mesma forma que os gêneros, não temos uma discrepância muito grande entre as vendas, sendo o Estado que mais comprou foi o Estado de South Australia, representando 14.33% das vendas.

Quais foram os meses com o maior número de vendas?

Para responder a pergunta, foi feita a seguinte query:

Considerando que o conjunto de dados possui registros de Janeiro a Outubro, podemos ver que os três melhores meses de venda (até agora) foram Março, Janeiro e Julho.

Quais os produtos mais vendidos?

Fiz a seguinte query para responder a pergunta:

O produto mais vendido no período foi a Jaqueta de Denim, representado 5.08% das vendas da empresa, seguida pela Camisa Slim Fit, a Jaqueta Trench, a Jaqueta Shearling e a Jaqueta Puffer.

Esses 05 produtos, somados, representam 18.89% das vendas da empresa no período.

Qual o tempo médio entre a data do pedido e a data de entrega?

Para responder a pergunta, a query feita foi essa:

O número médio de dias entre o pedido e a entrega do produto para o cliente é de 14 dias.

Qual o desempenho de vendas por trimestre?

Como não temos o dado em que trimestre o pedido foi feito, adicionei o atributo/coluna do trimestre no banco de dados de pedidos para facilitar a análise e responder ao questionamento de forma precisa.

Após, realizei a seguinte query para obter a resposta:

O Primeiro Trimestre (Janeiro a Março) foi o melhor período de vendas para a empresa.

Todavia, cabe ressaltar que o Quarto Trimestre tem somente as vendas do mês de Outubro, sendo esse o último mês que temos registros no conjunto de dados.

Conclusões

Bom, esse foi um projeto visando trazer alguns insights sobre a operação de uma empresa de varejo no segmento de vestuário, com foco no e-commerce.

Através da análise dos dados de clientes, produtos, pedidos e vendas da empresa, pude responder as perguntas de negócios e extrair algumas informações que podem influenciar em estratégias de vendas e publicidade, visando o aumento da receita e crescimento do negócio.

Acredito que consegui explorar bem os comandos de DDL, DML e DQL do SQL, de modo que não tive grandes dificuldades em realizar as queries e usar o relacionamento entre as tabelas para responder as peguntas de negócio.

Você pode conferir o projeto com mais detalhes no repositório do Github.

Sigam-me para acompanhar mais textos e projetos sobre ciência e análise de dados, e se quiserem, conectem-se comigo no Linkedin.

Até a próxima!

--

--