O depoimento do ex-juiz Sérgio Moro movimentou o Twitter

A #VazaJato no Twitter: Animação da dinâmica das Hashtags no Twitter durante depoimento de Sérgio Moro no Senado

Charles Novaes de Santana
Dadoscope

--

No presente post, apresentamos uma animação que mostra como as principais hashtags associadas à palavra Moro no dia 19 de Junho de 2019 mudaram com o passar do dia. Escolhemos esse dia porque foi o dia em que o ex-juiz foi interrogado no Senado durante 9 horas. Convenhamos, um ex-juiz sendo interrogado por aqueles a quem costumava assustar com sua fama de “caçador de corruptos” não é algo que se vê todos os dias. Esse fato movimentou o Twitter durante todo o dia 19 de Junho, e nós estávamos de olho na rede.

Nos capítulos anteriores…

Em 09 de Junho de 2019, o Intercept Brasil divulgou as primeiras de uma série de reportagens contendo conversas no mínimo inadequadas entre o ex-juiz Sérgio Moro e Procuradores da Lava Jato . De lá para cá, não se fala em outra coisa nas redes sociais do Brasil, em especial no Twitter. Para tentar entender melhor as reações da sociedade às polêmicas envolvendo tão importantes personagens da história recente do Brasil, resolvemos usar ciência de dados e, em especial, a linguagem de programação R para analisar as reações do Twitter à chamada Operação #VazaJato.

Em 13 de Junho de 2019, publicamos um primeiro post analisando volume de tuítes e retuítes envolvendo atores dessa história. Em 18 de Junho de 2019, publicamos um segundo post, no qual focamos nas redes entre usuários e palavras-chave tuitadas, assim como na probabilidade de que uma palavra esteja em um tuíte contendo uma determinada hashtag e apresentamos uma rede de palavras mais citadas nesses tuítes. Por fim, disponibilizamos 2 dashboards (aqui e aqui) que permitem ao usuário fazer suas próprias análises com os dados por nós coletados.

Novo capítulo…

Em 19 de Junho de 2019, o ex-juiz Sérgio Moro prestou depoimento no Senado Federal sobre a polêmica envolvendo as conversas reveladas pelo The Intercept Brasil. Neste post, apresentamos uma animação que mostra como se comportaram as principais hashtags associadas à palavra “Moro” ao longo daquele dia.

Coletamos tuítes e retuítes contendo as palavras “Moro”, “Senado” ou “#VazaJato” entre as 10:00 horas e as 18:00 horas do dia 19/06/2019. A coleta foi feita aleatoriamente e de maneira automática usando uma implementação em linguagem R da API do Twitter. A intenção de explorar os termos e não diretamente as hashtags é evitar hashtags robotizadas e assim reduzir o viés na coleta dos dados (como bem pontuou o cientista brasileiro Fabio Malini, em recente mensagem divulgada no twitter).

A cada intervalo de 30 minutos coletávamos até os 10 mil tuítes mais recentes, totalizando 157804 tuítes únicos. Para cada um desses tuítes, obtivemos informações sobre hashtags utilizadas, então decidimos criar um “animated bar chart” pra ver a evolução das hashtags ao longo do dia do depoimento do ex-juiz Sérgio Moro no Senado. Esses dados estão livremente disponíveis no nosso Github.

Hashtags animadas

Para criar um animated bar chart de hashtags a partir de dados extraídos via API do Twitter, a primeira coisa que fizemos foi acumular os dados a cada 15 minutos com o objetivo de obter volume de dados suficiente para ranquear as hashtags mais usadas. Para cada intervalo de 15 minutos contabilizamos quantas vezes apareciam hashtags. Esse trabalho é facilitado porque os dados baixados via API classificam automaticamente as hashtags de cada tuíte. Com esses dados já é possível desenhar um gráfico de barras em que o eixo vertical representa as hashtags identificadas e o eixo horizontal representa quantas vezes cada hashtag foi contabilizada. Usamos então a biblioteca gganimate, da linguagem de programação R, para realizar transições desse gráfico de barras para cada intervalo de 15 minutos. Com comandos simples essa biblioteca se encarrega de desenhar o gráfico de barras para cada passo de tempo e juntar os gráficos de todos os passos de tempo em uma animação em formato GIF ou MP4. O resultado dessa análise é a animação mostrada na figura 1.

Figure 1. Animação contendo volume de citações de hashtags relacionadas ao termo “Moro” ao longo do dia do depoimento do ex-juiz Sérgio Moro ao Senado

Uma simples animação dá uma ideia do que aconteceu nas redes sociais no dia do depoimento de Sérgio Moro ao Senado. No topo da figura 1, escrito em tons de cinza, está o horário de cada passo da animação. É possível verificar que a animação inicia representando o volume de cada hashtag coletada ao redor das 10 da manhã e termina com o volume dessas hashtags ao redor das 18 horas.

No início da animação fica evidente que as manifestações nas redes sociais eram em sua grande maioria contrárias ao juiz Sérgio Moro. As 5 hashtags mais comentadas são hashtags nitidamente criticando o ex-juiz ou citando as reportagens da Intercept, com destaque para as hashtags #VazaJato e #morojuizfake que se revezam na liderança das hashtags mais citadas entre as 10 da manhã e as 15 horas.

Também se destacam algumas hashtags lançadas no dia anterior ao depoimento de Sérgio Moro no Senado, como #Tchutchuca e #Tigrão (lançadas pelo deputado federal Zeca Dirceu, em alusão às diferentes posturas de Moro com Lula e com FHC quando a Lava Jato lançou denúncias contra os dois), bem como a hashtag #ratomoromelindrado, que faz alusão também à postura de Moro com FHC (a quem não queria melindrar, por “ser um importante aliado”, segundo mensagens de Telegram divulgadas pelo Intercept).

Entretanto, a partir das 14 horas há um aumento importante no volume de citações da hashtag #detonatudomoro, uma hashtag encampada por apoiadores do ex-ministro. Essa hashtag não apresentava tanto destaque pela manhã, quando se iniciou o depoimento do ex-juiz, mas às 15 horas chegou a ser a segunda hashtag mais comentada, e antes das 16 horas já era a hashtag mais comentada do dia em tuítes envolvendo o termo “Moro”. Esse cenário não mudaria até as 18 horas, quando deixamos de coletar os dados do twitter e a liderança da #detonatudomoro se consolidaria com quase o dobro de citações que a segunda colocada, a #ratomoromelindrado.

Essas informações podem indicar que a militância pró Sérgio Moro nas redes sociais se fortaleceu durante o depoimento no Senado, seja como um ato de defesa contra os ataques de senadores de oposição durante o depoimento, seja como uma amostra de que a postura de Sérgio Moro — agora declaradamente um ator político — alimentou sua militância de confiança para se manifestar nas redes em sua defesa. Outra hipótese que também não pode ser descartada é de que esse crescimento do apoio nas redes sociais durante a tarde do dia 19 seja fruto de robôs programados para tuitar. Entretanto, não podemos testar esta hipótese de que a comunicação tenha sido feita via robôs porque este é um tema bastante mais complexo, que exigiria o uso de outros métodos e um post muito mais longo que este ao qual nos propomos agora.

Por fim, as análises aqui apresentadas indicam também o poder que a visualização de dados tem para interpretar fenômenos diversos, incluindo a dinâmica nas redes sociais, e como um único gráfico pode apresentar um filme sobre como a população se manifestou nas redes sociais em um dia importante na história do Brasil. A propósito, o código-fonte e os dados usados para produzir essa animação encontram-se disponíveis no Github e podem ser exploradas por qualquer pessoa mais curiosa.

Um pouco de pimenta…

O fenômeno típico dos estudos sub-atômicos que ocorre nas menções a #detonatudomoro é impressionante. Sai de 1781 ocorrências para 2225 em 15 minutos. Isso faz com que a hashtag realize um salto quântico de algumas camadas na corrida das barras. Ressalta-se ainda que a aceleração que se segue é comparável à dos artefatos espaciais das séries de ficção científica. Isso tudo reforça a hipótese de uso de robôs. Aguarde que esse pode ser o próximo capítulo da nossa série.

Sobre os autores

Somos um grupo de cientistas de dados com interesse, entre outras coisas, em dados abertos, inteligência artificial, programação em R, política e redes sociais. Nos auto-intitulamos Dadoscope.

Charles Novaes de Santana: “Lulista de Dados” com experiência em modelagem computacional e análise de dados usando sistemas complexos, estatística computacional e inteligência artificial. Programador nas linguagens R, C++ e Julia. Graduado em Ciência da Computação (2006), com mestrado em ciências ambientais (2007), e em mudanças climáticas (2009) com doutorado na mesma área (2013). Atualmente atua como Pesquisador de Postdoc no ETH-Zurich. Co-fundador da empresa DataSCOUT.

Tarssio Barreto: “Lulista de Dados”, estudante de doutorado do Programa de Engenharia Industrial da Universidade Federal da Bahia. Formado em Engenharia Sanitária e Ambiental (2015) e com mestrado na mesma área (2017). Dedico o seu tempo ao aprendizado estatístico e aprendizado de máquina com particular interesse em métodos de redução de dimensionalidade, temas relacionados a modelagem ambiental e qualquer desafio que lhe tire o sono!

Fernando Barbalho — Doutor em Administração pela Universidade de Brasília (2014). Atualmente é auditor federal de finanças e controle da Secretaria do Tesouro Nacional (STN). A trajetória profissional e acadêmica mais recente está principalmente relacionada a dados abertos e desenvolvimento de produtos que resultem em maior transparência do Setor Público brasileiro. Nos finais de semana costuma utilizar o R para investigar perguntas de pesquisa que escapam ao mundo das finanças públicas.

Tomás Barcellos — Formado na Universidade Federal de Santa Catarina (2014). Trabalha no Ministério da Agricultura, Pecuária e Abastecimento desde 2015, atuando hoje como Coordenador de Inovação. É mestrando do Programa de Pós-Graduação em Estudos Latino-Americanos da UnB.

Leonardo Nascimento — Químico pelo Instituto Federal de Educação, Ciência e Tecnologia da Bahia — IFBA (1997), graduado em psicologia pela Universidade Federal da Bahia — UFBA (2002), mestre em sociologia pela Universidade de São Paulo — USP (2007) e doutor em sociologia pelo Instituto de Estudos Sociais e Políticos — IESP/UERJ (2013). Atualmente é professor do Instituto de Ciência, Tecnologia e Inovação da UFBA. Apesar de ser um padawan em R, acredita cegamente que apenas os métodos digitais, em especial a linguagem R, poderão salvar as ciências sociais.

--

--

Charles Novaes de Santana
Dadoscope

Data Scientist — passionate by fractals, networks, animations, and my family