De um feed de Twitter para a "Farra dos Verbetes"

Montando uma história jornalística a partir do levantamento de dados abertos

Sérgio Spagnuolo
Volt Data Lab
6 min readOct 17, 2017

--

Siga-me no TwitterLink para reportagem na piauí

Na semana passada, o Volt Data Lab publicou uma reportagem no site da revista piauí sobre alterações feitas na Wikipédia a partir de redes do governo federal. Neste post, vou explicar os dados e o processo meu e de nossa repórter Keila Guimarães.

A ideia veio em junho de 2017. Há alguns anos eu sigo no Twitter o BRWikiedits, um robô feito pelo programador natalense ninja Pedro Felipe que monitora alterações na enciclopédia online colaborativa feitas pelas conexões de cerca de 60 entidades dos três poderes do governo federal.

Eu sabia que excessos aconteciam. Em junho do ano passado, escrevi uma reportagem para nossos parceiros do Aos Fatos sobre uma mudança feita a partir da rede da Presidência da República no perfil da secretária especial de políticas para mulheres (SPM) do Ministério da Justiça, Fátima Pelaes, suprimindo informações de que ela foi alvo de uma investigação de desvio de verbas e acrescentando um histórico favorável à sua biografia.

Disso pra -> Isso

A partir daí comecei a coletar informações do feed utilizando o IFTTT, para conseguir tabelar esses dados para viabilizar uma análise melhor e averiguar se esses excessos aconteciam regularmente. Como os dados comprimiam apenas uns poucos meses, não achei suficiente para validar uma reportagem.

Utilizei um script de Python para raspar cerca de 3.000 tweets da conta do BRWikiedits, que me daria um volume significativo de verbetes alterados e teria mais valor estatístico para a investigação. Isso me permitiu ter uma ideia melhor do que eu estava tratando: sobre o uso indiscriminado (remover referências a corrupção de políticos) ou irrelevante (Liga de Surfe teve mais de uma centena de alterações.)

Mas eu queria mais dados. Aliás, eu queria todos os dados dessa conta. A API do Twitter só permite extrair com certa facilidade em torno de 3.200 tweets de uma conta. Mas há workarounds que permitem mais. Entrei em contato com o Pedro, criador do BRWikiedits, para que ele utilizasse suas chaves da API do Twitter para raspar tudo o que tinha saído pelo robô desde sua criação, em meados de 2014. E voilá, ele me mandou todos esses dados brutos.

Criei, então, algumas funções no Google Sheets para limpar e organizar esses dados, a fim de conseguir extrair informações relevantes deles (como a língua original dos verbetes e se era mesmo um verbete ou arquivo da Wikimedia.) Assim, um conjunto de mais de 7.000 Tweets, com até 140 caracteres cada, foi transformado em uma tabela com 14 colunas.

Uma das partes mais importantes foi separar o que era provedora de serviços de Internet do resto. Isso porque Telebrás e Serpro fornecem rede para clientes externos, ou seja, as alterações não necessariamente saíram de pessoas dessas instituições.

No caso da primeira, a empresa fornece conexões para localidades menos atendidas por redes de grandes teles, principalmente sob o Plano Nacional de Banda Larga (PNBL). Ou seja, pessoas que não tem nada a ver com o serviço público, consumidores finais, podem ter feito as mudanças. Já a Serpro serve como fornecedora de outros entes do governo, e por esse motivo foi mantida na conta, mas não no ranking de entes que mais fizeram edições — afinal, alguém do governo provavelmente fez essas mudanças, mas não necessariamente alguém da Serpro.

Nesse ponto, é razoável presumir a alta probabilidade de um servidor público ter feito as alterações: redes do governo, são, em tese, acessos seguros, internos, não são abertos a qualquer um. Claro, convidados poderiam utilizar essas redes às vezes, mas é pouco provável que alguém se dê ao trabalho de ir ao prédio de um ministério, por exemplo, e plugar seu computador na rede (ou caçar um wifi) só para fazer mudanças na Wikipédia.

O robô ficou inativo do fim de agosto de 2016 ao início de fevereiro deste ano. Perguntei ao Pedro por que, e, principalmente, se havia alguma coisa a ver com o calendário eleitoral do ano passado, dada a coincidência. Ele disse que não houve qualquer motivação política, e sim relacionada aos custos em manter o robô ativo, visto que ele banca isso de seu próprio bolso. Além disso, o BRWikiedits já havia aparecido na mídia várias vezes, já tinha feito um barulho, e ele achou que havia alcançado o ápice. Ele depois mudou de ideia e o reativou.

No fim de agosto, chamei a Keila para me ajudar a escrever a reportagem, encontrar casos interessantes de edições e falar com especialistas a respeito das implicações de tudo isso (veja mais abaixo.)

Utilizei uma gama de ferramentas diferentes para fazer tudo isso. Como não era um número absurdo de dados, usei Google Sheets para tabelar e fazer queries nos dados. Para os gráficos, fiz os testes utilizando ggplot2, uma biblioteca de R, a fim de testar as melhores visualizações com precisão, especialmente o gráfico sobre horários e o temporal. Para customizar os estilos, usei uma ferramenta online chamada Playfair, que é baseada em ggplot2.

Acesse os dados tabelados aqui.

Retorno dos especialistas em transparência pública

Para Juliana Sakai, diretora de operações da Transparência Brasil, falta lisura e isonomia quando funcionários que utilizam equipamentos e redes do governo removem da enciclopédia conteúdo de interesse da sociedade. “Você colocar pessoas pagas com dinheiro do erário para alimentar essa enciclopédia, melhorar a imagem pública de membros políticos, é no mínimo questionável”, afirma.

Outro ponto sensível é a desinformação decorrente de edições que não seguem princípios da Wikipédia, como a verificabilidade, que recomenda a adição de informações apenas provenientes de fontes confiáveis.

“Estamos em um mundo de desinformação. Você ter um funcionário público utilizando equipamentos públicos de modo a levar à desinformação (quando o princípio da verificabilidade não é seguido) adiciona uma camada de complicação a esse cenário”, avalia Fabiano Angélico, representante da Transparência Internacional no Brasil.

A predisposição natural de acreditar em informações que corroboram crenças pessoais também contribui para que informações, mesmo as adicionadas sem rigor à plataforma, sejam tomadas como verdade. “As pessoas querem acreditar no que preferem e muitas vezes acabam absorvendo o conteúdo que mais se parece com o que elas acreditam. Acaba sendo meio preocupante”, aponta Sakai.

O escopo dos temas editados é amplo. Apesar dos casos nos quais houve supressão de informações sensíveis sobre pessoas e políticas públicas, no geral a maioria das edições pelas redes estatais parece inofensiva, quase inocente. Mudanças nos verbetes sobre as atrizes Geisy Arruda, Isis Valverde, a cantora Anitta, o compositor Belchior, o personagem Guy Fawkes e sobre centenas de outros exemplificam a abrangência de interesses daqueles que utilizam a rede dos computadores oficiais do governo para editar a Wikipédia.

Talvez essa seja uma forma de encarar algumas curiosidades como esclarecimentos acerca do verbete “Nó torto”, da definição do símbolo arroba (sim, o @) e de uma edição de estilo sobre a morte o rei Luís XIII da França.

No entanto, a maioria das mudanças ocorre durante o horário de trabalho da grande maioria dos servidores, mostra análise da Volt Data Lab. O período de maior atividade é o vespertino, seguido pelo noturno e pelo horário de almoço.

Edições durante o expediente, quando feitas em termos não correlatos às funções dos órgãos do governo, ferem princípios da administração pública, afirma Angélico. “Uma pessoa física que está em um cargo público, utilizando recursos públicos, precisa ter em mente que sua função envolve algumas obrigações. Ela não deve investir seu tempo em atividades que não estejam voltada ao interesse da sociedade”, diz.

A edição de enciclopédias colaborativas como a Wikipédia não deveria ser vetada ao funcionário público, acredita Angélico, dizendo que é preciso atenção ao escopo dos termos modificados. “Plataformas colaborativas são muito interessantes. Não deveríamos vetar o uso da edição da Wikipédia pelo funcionário público, principalmente se houver projetos interessantes que mereçam publicidade. Mas se o objetivo da edição não for de interesse público, de atividades relacionadas à atuação daquele órgão, está errado”, diz.

--

--

Sérgio Spagnuolo
Volt Data Lab

Jornalista, editor e fundador da agência de jornalismo Volt Data Lab (www.voltdata.info). Coordenador do Atlas da Notícia, uma iniciativa sobre jornalismo local