METODOLOGIA

Judite Cypreste
Projeto Coração Radiante
2 min readJul 22, 2018

A partir de um programa criado em Python, foi feita uma raspagem no Twitter durante a partida. A mensagem, a data e hora e o número de identificação da mensagem foram baixados. Essa raspagem levava em consideração duas situações que são importantes de serem ditas:

  1. Todos os tuítes tinham a palavra-chave “Brasil” no conteúdo da mensagem.
  2. A exclusão de RTs foi feita para a prevalência de mensagens únicas. Se você soubessem como as pessoas retuitam milhões de vezes uma mesma mensagem ficariam enojados.

Após a raspagem, os tuítes passaram por uma análise de sentimentos, com o intuito de avaliar se o teor da mensagem era positivo, neutro ou negativo. Para isso, por meio de testes prévios de amostragem, foi criada uma library específica de futebol. Nela, as palavras tiveram pesos de acordo com a mensagem transmitida.

Exemplos:

Perna de pau — palavra negativa;

Golaço — palavra positiva;

Gol — palavra neutra (pode parecer positiva a primeira vista, mas gol é gol).

As mensagens foram então divididas, respeitando o intervalo de cinco minutos. O números de tuítes raspados dentro dos intervalos não são os mesmos e a quantidade relativa ao período se encontra sempre ao lado da minutagem na tabela.

NUVENS DE PALAVRAS

Para a criação das nuvens de palavras, foi reaproveitado o mesmo programa que fez os testes para a montagem da nossa library. Isso porque ele também pode selecionar um número escolhido de palavras mais faladas nas mensagens.

Algumas foram descartadas por questões lógicas. Um exemplo foi o nome dos países que jogavam nas partidas. Era lógico que, se estamos buscando apenas mensagens que tenham a palavra “Brasil” essa seria a palavra que mais apareceria na amostragem. E se a partida é contra a “Suíça”, o nome do país vai aparecer com frequência.

Por questões de transparência, as palavras excluídas de cada partida estão disponibilizadas no link abaixo, em um site específico criado no Git Page. Em sua grande maioria são palavras em espanhol, conjunções e símbolos (provavelmente emojis que não foram codificados).

--

--

Judite Cypreste
Projeto Coração Radiante

Acredito que um bom jornalista de dados entrega mais do que tabelas e números percentuais incompreensíveis.