A #VazaJato no Twitter: entrevistando os dados dos tuítes em uma abordagem etnográfica

Fernando Barbalho
Jun 24 · 8 min read

Tudo começou no dia 9 de Junho de 2019. The Intercept Brasil fez matérias sobre mensagens vazadas que envolviam atores importantes do processo Lava Jato. A partir daí esse é o assunto que toma conta do Twitter. Acompanhando os desdobramentos do caso, o nosso grupo já fez três trabalhos disponíveis nessa publication do Medium.

Agora é o momento de apresentarmos algumas contribuições sobre metodologias de pesquisas que podem ser apoiadas com o ferramental que desenvolvemos. Especificamente estamos oferecendo o aplicativo de redes de palavras interativas como uma forma de entrevistar os dados numa abordagem etnográfica.

Normalmente as análises e os resultados encontrados quando se estuda o Twitter são fortemente quantitativos, baseados em grandes volumes agregados. Mesmo as análises de sentimentos, que seria uma abordagem qualitativa à princípio, têm os seus resultados apresentados como indicadores quantitativos e sempre apoiados em grandes números resultantes das inúmeras interações de Twitter.

A abordagem que propomos aqui traz a combinação de análises quantitativas com qualitativas. A ideia é que se inicie com exploração de uma grande base de dados, no caso mais de 300.000 linhas de tuítes sobre o caso da #VazaJato, para no limite possibilitar a singularização da análise até o indivíduo que foi autor de alguma postagem que interesse ao pesquisador. Propomos que isso seja feito através de sucessivos tratamentos de dados e filtros que o aplicativo oferece.

A primeira análise que se oferece é a própria rede de palavras em si. Para esta versão do aplicativo uma rede de palavra é montada para vários termos que se destacaram na primeira semana de debates sobre o #VazaJato no Twitter. Se o usuário, jornalista, pesquisador ou curioso, quiser entrevistar os dados nesse momento, sua pergunta será do tipo: o que está sendo discutido entre aqueles que propagam o hashtag #VazaJato?. A Figura 1, traz algumas pistas para a resposta a essa pergunta.

Figura 1: Rede de palavras indicam temas em debate

Na rede de palavras percebe-se que alguns temas são destacados pela frequência que as palavras aparecem e pela alta correlação entre essas palavras frequentes. Na Figura 1 que mostra o resultado do tratamento sobre os textos da hashtag #lavajato percebe-se que discute-se, entre outros temas, Tacla Duran, Ciro Gomes e Raquel Dodge. Algumas combinações de palavras não são tão óbvias, mas a funcionalidade de selecionar com o mouse um conjunto de palavras e povoar em uma tabela os textos relacionados a esse conjunto de palavras, resolve esse problema. A Figura 2 mostra isso.

Figura 2: Tabela ajuda a desvendar conteúdo de sub-rede

Observe na Figura 2 que uma sub-rede é selecionada. Na tabela exibida ao lado da rede percebe-se que o texto que se forma com as palavras selecionada é esse:

sergio moro, enquanto julgava lula, sugeriu à lava jato emitir uma nota oficial contra a defesa. eles acataram e pautaram imprensa

Percebe-se ainda que esse texto se repete, mudando basicamente hashtags e usuários que são adicionados.

A informação que se vê no rodapé da tabela ajuda a responder a uma outra possível pergunta na entrevista aos dados: com que frequência um dado assunto é tratado? Temos então agora uma pergunta quanti. A tabela indica que a sub-rede destacada aparece em 744 tuítes. Isso do ponto de vista quantitativo é relevante do impacto da matéria do Intercept que traz a questão da possível influência de Sérgio Moro na condução da Lava Jato e dos efeitos sobre a imprensa.

Antes de prosseguirmos, vale observar que a tabela oferece mais possibilidades de tratamento de dados. Os botões no cabeçalho permitem exportar os dados para vários formatos. O usuário terá então a disponibilidade dos dados brutos para outras ressignificações.

Voltando às perguntas, podemos chegar àquelas que costumam caracterizar o programa de televisão Globo Repórter: quem são essas pessoas que discutem a hashtag #VazaJato? O que fazem? Há quanto tempo estão no twitter? O que costumam escrever? A propósito, essas perguntas focadas em indivíduos que compõem determinados grupos sociais fazem o diálogo com as metodologias etnográficas. A Figura 3 mostra o caminho das pedras para responder essas perguntas a partir de uma tabela disponível na aba Analítico.

Figura 3: Detalhamento dos tuítes que atendem a uma seleção da rede de palavras

Pela Figura 3 percebe-se a possibilidade de se responder a duas perguntas muito importantes: como o autor do tuíte se auto-descreve e qual é o endereço de internet que contém o tuíte postado. Sobre a primeira pergunta, esse extrato de informação permite identificar que os contextos das auto descrições variam muito: alguns trazem mensagens filosóficas, outros indicam suas atividades profissionais e outros já trazem suas crenças políticas.

Uma das possibilidades de análise da descrição é tentar entender palavras chaves que associam o grupo que está sendo estudado. Por exemplo, na aba de rede palavras foi feito um filtro pela hashtag #PavaoMisterioso que foi impulsionada por uma militância pró Lava Jato. Selecionou-se então uma das sub-redes e na aba Analítica foi possível ver as descrições. Ao se ler o conteúdo, pareceu óbvio uma contumaz necessidade dos autores dos posts deixarem uma mensagem que se relaciona a Deus. Com essa percepção foi possível então fazer uma busca por essa palavra chave na tabela formada. Veja como ficou essa constatação na figura 4.

Figura 4: Deus e os pavões misteriosos

As frases vistas na descrição da Figura 4 levantam a possibilidade de que os comentadores fazem parte de um grupo com um corte altamente religioso e conservador. Os usuários desses dados com essa informação em mão teriam a possibilidade de traçar um perfil dos grupos que apoiam os atores da Lava Jato após a repercussão dos vazamentos.

Por fim, chegaremos ao indivíduo. O sujeito que fez a postagem e que se revela na sua página de Twitter. A partir do campo URL pode-se navegar facilmente ao tuíte que foi postado e logo em seguida para a página. A Figura 5 exibe essa possibilidade.

Figura 5. Página de Twitter de um usuário cujo post foi analisado pela ferramenta.

A Figura 5 mostra a página de Twitter de um usuário que fez postagem com o texto da matéria do Intercept indicado no início do texto. Para manter o anonimato não mostramos muitas outras informações sobre o(a) usuário(a), além do fato que participa do twitter desde maio de 2009. Por outro lado, as informações que estão em sua página dizem muito.

Descobre-que mora no Rio de Janeiro e tem seu próprio site. Segue mais de 800 pessoas e é seguido por mais de 500. Considerando seus últimos posts é uma pessoa que acompanha de muito perto o que está ocorrendo no caso #LavaJato. Aparentemente informa-se principalmente por mídias que suportam o trabalho do Intercept. Os últimos posts indicam que pouco produz conteúdo próprio, usando-se basicamente de retuítes. A sua mensagem de descrição leva a crer que é uma pessoa que gosta de literatura e filosofia ocidentais. Isso leva à curiosidade de se procurar outros posts que saiam do universo da política. Aparentemente o clima não está para poesia em sua página. Rodando a página várias vezes, a única referência a assuntos mais leves é de uma experiência de Química que não deu muito certo em alguma escola.

É isso. Chegamos ao final da história de como utilizar nosso ferramental para entrevistar dados de twitter sobre a repercussão da #VazaJato. Parte-se de uma base de dados enorme, cacofônica e caótica. Organiza-se os dados em temas. Depois oferece-se um mapa de palavras correlacionadas. A partir daí vem o trabalho do pesquisador de filtrar, inquerir e cuidar dos elementos de sua hipótese e narrativa.


Antes que nos pergunte:

  • Sim, nós sabemos que demora um pouco para carregar. Vamos ver se melhoramos isso.
  • Sim, o campo de URL seria melhor se fosse no formato de hyperlink. Vamos ver se ajeitamos isso.
  • Sim, realmente não funciona o recurso de seleção de palavras no mapa quando se usa celular. Você vai precisar de um mouse para isso.
  • Sim, você pode nos ajudar a superar esses e outros problemas através do nosso github.
  • Sim, essa ferramenta está dedicada ao tema da #VazaJato e sim podemos eventualmente customizar para sua necessidade se você nos procurar.

Sobre os autores

Somos um grupo de cientistas de dados com interesse, entre outras coisas, em dados abertos, inteligência artificial, programação em R, política e redes sociais. Nos auto-intitulamos Dadoscope.

Charles Novaes de Santana: “Lulista de Dados” com experiência em modelagem computacional e análise de dados usando sistemas complexos, estatística computacional e inteligência artificial. Programador nas linguagens R, C++ e Julia. Graduado em Ciência da Computação (2006), com mestrado em ciências ambientais (2007), e em mudanças climáticas (2009) com doutorado na mesma área (2013). Atualmente atua como Pesquisador de Postdoc no ETH-Zurich. Co-fundador da empresaDataSCOUT.

Tarssio Barreto: “Lulista de Dados”, estudante de doutorado do Programa de Engenharia Industrial da Universidade Federal da Bahia. Formado em Engenharia Sanitária e Ambiental (2015) e com mestrado na mesma área (2017). Dedica o seu tempo ao aprendizado estatístico e aprendizado de máquina com particular interesse em métodos de redução de dimensionalidade, temas relacionados a modelagem ambiental e qualquer desafio que lhe tire o sono!

Fernando Barbalho — Doutor em Administração pela Universidade de Brasília (2014). Atualmente é auditor federal de finanças e controle da Secretaria do Tesouro Nacional (STN). A trajetória profissional e acadêmica mais recente está principalmente relacionada a dados abertos e desenvolvimento de produtos que resultem em maior transparência do Setor Público brasileiro. Nos finais de semana costuma utilizar o R para investigar perguntas de pesquisa que escapam ao mundo das finanças públicas.

Tomás Barcellos — Formado na Universidade Federal de Santa Catarina (2014). Trabalha no Ministério da Agricultura, Pecuária e Abastecimento desde 2015, atuando hoje como Coordenador de Inovação. É mestrando do Programa de Pós-Graduação em Estudos Latino-Americanos da UnB.

Leonardo Nascimento — Químico pelo Instituto Federal de Educação, Ciência e Tecnologia da Bahia — IFBA (1997), graduado em psicologia pela Universidade Federal da Bahia — UFBA (2002), mestre em sociologia pela Universidade de São Paulo — USP (2007) e doutor em sociologia pelo Instituto de Estudos Sociais e Políticos — IESP/UERJ (2013). Atualmente é professor do Instituto de Ciência, Tecnologia e Inovação da UFBA. Apesar de ser um padawan em R, acredita cegamente que apenas os métodos digitais, em especial a linguagem R, poderão salvar as ciências sociais.

Dadoscope

Cientistas de dados que usam dados abertos, dashboards, machine learning e um pouco de criatividade para entender o mundo à nossa volta

 by the author.

Fernando Barbalho

Written by

#rstats #HumanRights #OpenData #music #books #ChicoBuarque

Dadoscope

Dadoscope

Cientistas de dados que usam dados abertos, dashboards, machine learning e um pouco de criatividade para entender o mundo à nossa volta

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade