Análise de dados do Big Brother Brasil (#BBB 22)

Jean Paul Dosher
7 min readMar 22, 2022

--

Explorando dados do site Gshow, do Google Trends e do Twitter.

Neste artigo pretendo expor e discorrer sobre os dados obtidos relacionados a edição 2022 do programa(até a data presente), a divulgação será no formato ‘relatório’,geralmente direcionado aos tomadores de decisões: com menos informações técnicas e mais exposição de insights e dos dados em si.

ÍNDICE

  1. Raspagem dos dados do site Gshow
  2. E.D.A. site Gshow
  3. Análise de rede
  4. Google Trends
  5. Twitter
  6. Conclusão
  7. Notas sobre o projeto
  8. Referências e links

1. Raspagem dos dados do site Gshow

Para raspagem de dados do site Gshow usei as bibliotecas python “selenium” e “beutiful soup”que automatiza o navegador e lidam com o conteúdo cru do site. Neste caso os elementos desejados eram os posts do site, estes posts foram salvos separadamente para as análises posteriores. Esta etapa foi bem desafiadora devido o fato da página ser bem dinâmica, também pelo fato de eu estar utilizando um notebook via web(Google Colab). Foi coletado um total de 1643 posts.

2. E.D.A site Gshow

Finalizada a extração dos posts do site, agora a ideia é analisar os textos.

Quantidade de menções por participante:

Número de menções por participante

Aqui vemos que o participante Arthur tem 30% menções a mais que o segundo mais citado.

Palavras mais utilizadas nos posts:

Palavras mais citadas nos post

Da nuvem de palavras não é possível tirar alguma conclusão, pois não temos são mostrados valores quantitativos, mas com certeza o pessoal do marketing vai se apaixonar. Para anotação, as dez mais citadas são(por ordem decrescente): BBB, Arthur, sobre, no, paredão, líder, Lucas, Eliezer, Natalia.

3. Análise de rede

Na análise de redes sociais (ARS) as iterações entre elementos(vértices) cria um relacionamento(aresta). Neste caso foram consideradas iterações entre pares nos posts, por exemplo, “Gustavo diz para para Lucas…” .Também pressupõe-se que as iterações criam ‘vínculos’ entre os dois pares, criando uma rede simétrica (Se Arthur é amigo de Lucas, Lucas é amigo de Arthur).

No BBB as iterações são bem densas, já que todo mundo interage com todo mundo.

Grafo das interações entre participantes do BBB

Com o passar do tempo os candidatos eliminados vão migrando para as ‘bordas’ do grafo, indicando que as interações são mais ‘fracas’. Os grafos também indicam os vértices com maior ‘grau de centralidade’, isto é, os que possuem mais interações:

Grau de centralidade da rede

Novamente alguns participantes recém eliminados aparecem ainda com grau de centralidade alto, creio que também devido às participações em outros programas serem postadas no próprio site.

3.1 Detecção de comunidades

Este é um dos pontos que mais chama “aos olhos” para quem acompanha o programa. Durante o passar do tempo “panelinhas” vão sendo criadas -não vou detalhar muito ,mas seria um bom objeto de estudo social. Tendo as interações em mãos é possível identificar as comunidades(“panelinhas”) criadas até então:

Comunidades detectadas

No grafo, cada cor de um vértice representa a comunidade que este vértice pertence, até o momento haviam 3 comunidades (“panelinhas” se você preferir).

4. Google Trends

Usando a API do Google Trends e a biblioteca pytrend foram pesquisados os termos ‘bbb 22’, ’BBB22' e ’bbb22', para isto existe um método oferecido pela própria biblioteca pytrend:

#pytrend.interest_over_time()bbb 22       25.02
BBB22 5.53
bbb22 5.53
isPartial 0.02

O termo com mais interesse é “bbb 22”, para fechar a conclusão do questionamento se este é realmente o termo que será usado como base de busca bastou pesquisar os “termos relacionados”, também provido pela biblioteca pytrends:

#pesquisas relacionadas['bbb 22', 'BBB22', 'bbb22']

Finalmente, podemos ver o interesse ao longo do tempo:

Interesse nos termos ao longo do tempo

Vemos que o ponto onde houve maior popularidade foi o dia 07 de março (formação de paredão)- a emissora clama ter sido este o segundo paredão com maior popularidade na história do programa.

Temos o interesse regional em ordem decrescente, este será curioso para fazermos mais a frente uma comparação com as interações no Twitter.

| “Os valores são calculados em uma escala de 0 a 100, onde 100 é o local com mais popularidade como uma fração do total de pesquisas nesse local, um valor de 50 indica um local com metade da popularidade. Um valor de 0 indica um local onde não havia dados suficientes para este termo..”| Fonte: Google Trends.

5. Twitter

Para a coleta de dados do Twitter foi utilizado a API oficial e a biblioteca tweepy do python. Nesta seção além dos dados quantitativos será demonstrado através de algoritmo de Processamento de Linguagem Natural (PLN)uma breve análise dos textos, definindo os “sentimentos” de cada tweet, sendo estes “positivos”, “negativos” ou “neutros”.

Para a análise de sentimentos, os textos passaram por tratamento para remoção de emoticons, retweets e links.

Tweets “neutros” são mais comuns, geralmente são resumos diários ou apenas textos que retratam ações/acontecimentos no programa, como início de provas, festas, etc.

Com os textos extraídos também é possível fazer uma nova nuvem de palavras, desta vez estilizada.

Nuvem de palavras de textos de tweets

Quanto a origem dos tweets, existe uma concentração maior na região sudeste (contrariando o Google Trends), neste caso um estudo mais aprofundado será necessário, logicamente que a densidade populacional é um fator a ser considerado.

Mapa de calor das localizações dos tweets sobre o BBB 22

A análise temporal dos dados do Twitter compreende apenas 7 dias devido limitações da API oficial -será contornada em projetos futuros. Entretanto com esta coleta já é possível identificar atividade maior durante os dias da semana, onde ficam concentrados os momentos mais importantes do programa, como formação de paredões e eliminações.

Interesse ao longo do tempo (tweets)

6. Conclusão

Neste estudo os dados coletados abrangem o período do início do programa (17/01/22) até a data da coleta (19/03/22) -apenas Twitter com 7 dias de amostra. Embora exista contradição nos interesses regionais está indicado que o participante Arthur é o mais popular (tanto no Twitter quanto no Gshow) até então.

Para as análises do posts do site Gshow; como a fonte de dados é a própria produtora do programa, entende-se que os dados podem ser enviesados de alguma forma, mas acompanham os interesses do público.

A análise de redes é dinâmica, mas tende a ficar muito densa ao longo do tempo, tendo que as interações entre participantes é muito grande, ainda assim é possível observar as centralidades e a baixa conexão entre participantes -que é muito interessante.

Para um refinamento nas análises será necessário avaliação dos próprios dados ao longo do tempo, tendo como paralelo os acontecimentos do programa para validação das análises.Do mesmo modo deve ser ponderados os resultados das análises dos textos, sendo necessário refinamento nas limpezas e no próprio algoritmo -já que o texto teve de ser traduzido.

7. Notas sobre o projeto

Para este projeto evitei fazer anotações das análises no notebook devido o fato do programa ainda não ter terminado, o que acabaria gerando uma falta de dinamismo ou mesmo interpretação errada quando os dados forem atualizados. Mantive um diário de bordo e documentações em uma página do Notion.

7.1 Onde o projeto pode ser abrangido? Quais áreas ?

Existe uma infinidade de possibilidades para análise de redes sociais, principalmente na área de marketing (relacionamento). Também seria vantajoso em campanhas políticas.

7.2 Quais foram minhas dificuldades?

  • Por hora não consegui todos tweets desde o início do programa, consigo apenas um período de 7 dias, uma alternativa de solução seria obter os tweets em tempo real (com uma máquina virtual na nuvem)
  • Creio que deveria assumir a rede de iterações como assimétrica, necessariamente uma interação não significa ‘amizade’, já que todos acabam falando com todos dentro da casa.
  • Como estava usando o notebook no Colab o scrapping acabou ficando um pouco mais complicado devido a necessidade de acesso do Colab ao navegador, porém as dificuldades foram contornadas.
  • Ficou pendente a implementação do mapa interativo no artigo do medium

7.3 O que mais pode ser extraído? Melhorias e propostas

Fiquei contente com o resultado do projeto, porém algumas implementações ficaram de fora, contudo me atentei na entrega do minimum viable product (mvp).

Vale a pena discorrer um pouco sobre as possibilidades.Mais uma vez, as possibilidades são infinitas. Seria divertido tentar prever o ganhador da edição:

  • De certa forma dá pra fazer um comparativo com análises/modelos de eleições
  • Utilizar algum dataset de edições anteriores para efeito de comparação
  • Análise de transcrição de diálogos de vídeos(talvez do youtube)
  • Pesquisar por algum “glossário”/ “enciclopédia” do BBB
  • Analisar estatísticas do programa
  • Coleta/Análise de dados em períodos “chave” (paredão, provas, etc…)
  • Abranger as fontes de coletas para outras redes sociais

Além disso, existem inúmeras melhorias no script/projeto que implementarei em um eventual próximo projeto, principalmente visando a análise temporal dos dados.

  • Armazenar em um banco SQL na OCI/Azure ou outra cloud
  • Rodar notebook em uma máquina virtual (podendo fazer streaming dos dados)

8. Referências e links

Nota de revisão: atualizei os dados e o artigo em no meu LinkedIn!

--

--

Jean Paul Dosher

I talk about Power Platform with an emphasis on Data and a little about soft skills | IT Application Analyst | Electrical Engineer | Sci-fi fan