A #VazaJato no Twitter

Em 09 de Junho de 2019, o Intercept Brasil divulgou uma série de reportagens contendo conversas entre o ex-juiz Sérgio Moro e Procuradores da Lava Jato. As reportagens alegam que as conversas, que tinham como tema principal as atividades do Juiz e dos Procuradores na Operação Lava Jato, poderiam por em risco a lisura da Operação Lava Jato e, inclusive, resultar na nulidade de decisões do Juiz Sérgio Moro vinculadas a essa operação. Diante disso, não é difícil imaginar que essas reportagens passaram a ser o assunto mais comentado nas mesas de jantar, nas rodas de bar, e nas redes sociais na noite de domingo no Brasil.

(Felizmente) não temos acesso às conversas íntimas das famílias e das rodas de amigos. Mas podemos ter acesso a uma parte das conversas tratadas nas redes sociais sobre esse tema. Em especial, no Twitter. E, como curiosos fanáticos por dados que somos, resolvemos bisbilhotar o conteúdo de alguns posts nessa rede social contendo palavras relacionadas ao agora famoso caso da “VazaJato”.

Baixamos dados de conversas no Twitter que continham pelo menos um dos 4 termos a seguir: “#VazaJato”, “Moro”, “Dallagnol”, e “Intercept”. Baixamos 10 mil tuítes para cada um dos termos, totalizando 40 mil tuítes.

Frequência de tuítes no tempo

Como o número de tuítes que baixamos é igual para cada termo, uma forma de identificar quais termos tiveram maior volume de menções no Twitter é analisar a frequência de tuítes por minuto para cada um deles. Na figura 1, o eixo horizontal marca o tempo em minutos, e o eixo vertical marca o número de tuítes envolvendo cada um dos termos estudados publicados a cada minuto.

Vemos que os termos #VazaJato e Moro estiveram presentes em aproximadamente 500 tuítes por minuto entre as 23:30 do dia 09–06 e as 00:00 do dia 10–06. Enquanto isso, os termos Intercept e Dallagnol estiveram presentes em aproximadamente 100 tuítes por minuto. Isso dá a noção de que o interesse das redes sociais era maior por Moro e pela divulgação do escândalo do #VazaJato do que pelo veículo que o divulgou ou pelo companheiro de escândalo de Moro.

Figura 1. Número de tuítes por minuto contendo cada um dos 4 termos analisados

Número de Retuítes

Além de conhecermos o número de tuítes contendo cada um dos termos, nos interessamos também por saber mais sobre o alcance desses tuítes na rede. Para isso, observamos o número de Retuítes de posts contendo cada um dos termos analisados. Aqui a história começa a ser desenhada com mais detalhes.

Na figura 2, o eixo horizontal marca cada um dos termos e as barras verticais representam o número de retuítes de mensagens contendo cada um dos termos. Observa-se que o número de retuítes contendo o termo #VazaJato (em vermelho) é 2 vezes maior que o número de retuítes do segundo termo mais retuitado — Moro, em azul. Também é interessante ver que, apesar do número de tuítes contendo Moro ser 5 vezes maior que o número de tuítes contendo Intercept (como vimos na figura 1), o número de retuítes contendo Intercept é “apenas” 3 Milhões menor que o número de retuítes contendo Moro. Isso dá uma ideia de que a divulgação de tuítes contendo Intercept engajou mais pessoas do que a divulgação de tuítes contendo Moro.

Figura 2. Número total de retuítes para tuítes contendo cada um dos 4 termos analisados

Já a figura 3 mostra quem foram os usuários do Twitter que foram mais retuitados citando cada um dos 4 termos. Cada gráfico tem uma lista de usuários no eixo vertical e o número de retuítes a partir de tuítes originais desses usuários representado por barras horizontais.

O usuário @BozoMeuOvo é o que apresenta maior destaque, com mais de 75 mil retuítes contendo o termo #VazaJato e mais de 40 mil retuítes contendo o termo Moro. Já o usuário @moema4 teve mais de 20 mil retuítes contendo o termo Intercept e mais de 27 mil retuítes contendo o termo Dallagnol. Esses são apenas 2 exemplos que ilustram que os grupos de pessoas que retuitaram cada um dos termos são diferentes, mostrando que o público tinha interesses diversos pelo tema.

Figura 3. Lista de usuários que mais comentaram com cada um dos 4 termos analisados

Conteúdo dos tuítes

Analisamos os textos dos tuítes usando o conceito de redes de palavras. Uma rede é um conjunto de pontos conectados entre si por meio de arestas. Em uma rede de palavras, cada ponto é representado por uma palavra diferente do texto, e duas palavras estão conectadas por arestas se elas aparecem na mesma frase. Dessa maneira, uma rede de palavras é uma forma de visualizar como diferentes ideias em um texto estão conectadas entre si, além de evidenciar os retuítes mais frequentes ou trechos desses retuítes. A figura 4 mostra a rede de palavras para os comentários baixados, em sua forma gráfica.

Figura 4. Rede de palavras formada a partir dos textos dos tuítes contendo cada um dos 4 termos estudados

De um modo geral, cada componente dessa rede de palavras (ou seja, cada sub-rede dessa rede maior) mostra o autor do tuíte que foi sucessivamente retuitado e mais duas ou três palavras significativas para o post. Outros componentes mostram uma estrutura mais densas com bem mais palavras.

Na maior parte das vezes, quando se faz uma pesquisa na base de dados usando as palavras que se destacam em cada uma das sub-redes, percebe-se uma clara noção de críticas à lava-jato e seus principais atores, notadamente Moro e Dallagnol. Além disso há um reforço positivo para a iniciativa do Intercept.

Algumas redes parecem trazer um sentimento de desforra, como a que monta o ditado “quem com ferro fere. Também será ferido”. Esse twite foi originalmente enviado por Guimarães e trata do fato dos vazamentos terem sido constantes em todas as operações da Lava Jato e que agora a própria operação está sendo questionada a partir de vazamentos. Vale ressaltar ainda que nesse post o autor busca marcar diferença entre as ações da Lava Jato e do Intercept, destacando que o segundo é um veículo jornalístico.

Outra rede que merece destaque é a que traz as palavras que formam o post da divulgação intercept do trabalho jornalístico que eles fizeram. Essa rede é a destacada abaixo:

Figura 5. Sub-rede relativa ao tuíte original em que a reportagem do Intercept Brasil foi divulgada

As palavras da rede informam sobre as semanas tensas e intensas de preparação do material jornalístico. O julgamento do Intercept é que “o público precisa saber como agiu a auto-intitulada maior operação de combate a corrupção do país”.

Dashboard

O material apresentado nesse post foi implementado a 8 mãos por 4 nerds que gostam de se meter em confusão (i.e., de trocar horas de sono por horas de coding) pra aprender novas coisas, analisar dados e gerar gráficos que ajudem a entender o mundo. O código fonte usado está acessível no Github e um dashboard foi gerado para permitir explorar parte dos dados de forma interativa. Especificamente, o dashboard permite visualizar palavras mais comuns nos tuítes contendo cada um dos termos. Convidamos o leitor ou a leitora a explorarem o dashboard e brincarem com a imaginação para tentar descobrir que outras palavras se destacam nas conversas virtuais. Esse é o nosso “fica a dica”.

Sobre os autores

Charles Novaes de Santana: “Lulista de Dados” com experiência em modelagem computacional e análise de dados usando sistemas complexos, estatística computacional e inteligência artificial. Programador nas linguagens R, C++ e Julia. Graduado em Ciência da Computação (2006), com mestrado em ciências ambientais (2007), e em mudanças climáticas (2009) com doutorado na mesma área (2013). Atualmente atua como Pesquisador de Postdoc no ETH-Zurich. Co-fundador da empresa DataSCOUT.

Tarssio Barreto: “Lulista de Dados”, estudante de doutorado do Programa de Engenharia Industrial da Universidade Federal da Bahia. Formado em Engenharia Sanitária e Ambiental (2015) e com mestrado na mesma área (2017). Dedico o seu tempo ao aprendizado estatístico e aprendizado de máquina com particular interesse em métodos de redução de dimensionalidade, temas relacionados a modelagem ambiental e qualquer desafio que lhe tire o sono!

Fernando Barbalho — Doutor em Administração pela Universidade de Brasília (2014). Atualmente é auditor federal de finanças e controle da Secretaria do Tesouro Nacional (STN). A trajetória profissional e acadêmica mais recente está principalmente relacionada a dados abertos e desenvolvimento de produtos que resultem em maior transparência do Setor Público brasileiro. Nos finais de semana costuma utilizar o R para investigar perguntas de pesquisa que escapam ao mundo das finanças públicas.

Tomás Barcellos — Formado na Universidade Federal de Santa Catarina (2014). Trabalha no Ministério da Agricultura, Pecuária e Abastecimento desde 2015, atuando hoje como Coordenador de Inovação. É mestrando do Programa de Pós-Graduação em Estudos Latino-Americanos da UnB.

Errata

Às 17:20 do dia 13.06, substituímos a figura 2, que estava equivocada.

Dadoscope

Cientistas de dados que usam dados abertos, dashboards, machine learning e um pouco de criatividade para entender o mundo à nossa volta

Charles Novaes de Santana

Written by

Data Scientist — passionate by fractals, networks, animations, and my family

Dadoscope

Dadoscope

Cientistas de dados que usam dados abertos, dashboards, machine learning e um pouco de criatividade para entender o mundo à nossa volta