Analisando as bilheterias de 2019–2020 — PowerBI

Renato Tripi
2 min readOct 22, 2022

Este é um projeto simples que fiz como uma introdução ao Power BI, foi o projeto sugerido como conclusão do curso “Prepare, Clean, Transform, and Load Data using Power BI”.

Atividade

Usando a informação de bilheteria de 2019 e 2020, forneça insights para comparar o montante nas zonas mundiais, nacionais e estrangeiras.

O processo de análise e limpeza foi feito usando o power query, as fontes de dados usadas foram as do site https://www.boxofficemojo.com/ pertencente ao Imdb, foi considerado uma fonte confiável.

Após extrair a tabela do HTML, comecei o processo de análise e limpeza deletando colunas que não serão usadas, deixei apenas as colunas Rank, Release group que é a coluna contendo o nome dos filmes, e por último as 3 colunas que mostram os valores em cada zona.

Como estou trabalhando apenas com as informações de 2019 por enquanto, adicionei uma coluna com o ano já pensando no momento em que vou unir com os dados de 2020.

No próximo passo, preferi deixar a coluna original intacta e criei uma nova para extrair apenas os números da coluna “Domestic” que continha um “$” na frente de todos os seus valores, ao fazer isso, encontrei um erro, os filmes que não foram lançados nessa zona estão com ‘-’ nas linhas, a correção do erro foi fácil, bastou trocar o traço pelo 0 e tudo foi arrumado, pra finalizar mudei o tipo de dado da coluna para número decimal.

O mesmo processo foi feito para a coluna que mediu os ganhos no mercado estrangeiro.

Finalizei este primeiro processo com um tabela contendo 200 linhas e 8 colunas.

Repeti todo o processo para a tabela do ano 2020, trocando apenas a informação da coluna que mostra o ano que o filme foi lançado.

Se tratando de uma base de dados com a mesma estrutura de colunas, usei o append para unir as duas tabelas em uma tabela final, com 400 linhas e 8 colunas.

Feito isso, agora era preciso somar as 3 colunas para saber o total de ganhos nas zonas mundial, nacional e estrangeira, e agrupar isso pelo ano. Fiz isso usando o Group by, com o ano como referência, somei cada uma das 3 colunas e terminei com a tabela abaixo:

Agora levei esta informação ao Power BI e criei a visualização abaixo:

Power BI visuazilation for the project

É possível perceber nitidamente o impacto da pandemia no ano de 2020, mesmo assim é importante notar que o mercado estrangeiro, mesmo durante o fraco ano de 2020, ainda consome mais do que o nacional.

--

--