Metendo a Mão nos Dados #1 — Rodolfo Viana

Paulo Ribeiro

Published in

Data Noob

8 min readJan 24, 2018

Ciência dos Dados no Jornalismo

Rodolfo Viana — Levando os dados para o Jornalismo

Vamos começar ouvindo sobre você. Conta um pouco sobre o que você faz hoje, é bem interessante.

Eu sou produtor de jornalismo na TV Globo, e atuo especificamente na área de dados. Enquanto meus colegas buscam histórias junto a pessoas, eu passo quase 100% do meu tempo com a cara enfiada em planilhas, documentos, gráficos, tabelas, microdados…

De forma geral, números são a matéria-prima do meu trabalho. Mas não qualquer número: apenas aqueles que contam boas histórias, que são bons retratos da realidade.

Por exemplo, o IBGE divulgou no mês passado dados sobre ocupações no Estado.

A partir deles, observei que, nos últimos cinco anos, dobrou a proporção de pessoas que trabalham no período noturno na Capital.

É um retrato interessante da atualidade. Esses dados serviram para compor matéria do SPTV 2, acompanhando dois trabalhadores que fazem das noites seus expedientes.

Como você começou no estudo de dados? Houve alguma fonte de inspiração específica?

Todo jornalista, independentemente da área de atuação, se depara com dados. Em repórter esportivo, ao querer levar ao público número de finalizações de um determinado jogador de futebol, precisa usar dados. Um repórter de economia, para falar da inflação, idem. Um jornalista cultural que queira saber a maior bilheteria no ano…

Enfim, os exemplos são muitos. Então eu não sei exatamente quando comecei a mexer com dados. Apenas me lembro de, em 2014, já chafurdar em projetos da Lei Rouanet para encontrar irregularidades — e encontrei algumas ao longo do tempo em que estive na Folha.

O estudo propriamente dito veio depois. Claro, você aprende muito com a prática — aliás, acho que a maioria dos jornalistas aprende a trabalhar com dados na prática, sem uma educação, digamos, direcionada a isso. No começo de 2017, depois que saí da Folha e comecei a trabalhar como freelancer para alguns veículos, vi que tinha um tempo livre e decidi me aprofundar na área de dados — apenas não sabia como.

Em janeiro, por causa de uma pauta, conheci o pessoal da Operação Serenata de Amor.

É um grupo de cientistas de dados e desenvolvedores dedicados a auditar os gastos dos deputados federais. Eles criaram um robô capaz de apontar a probabilidade de determinado gasto ser uma fraude. Repare: estamos falando de milhões de notas fiscais que acumulam centenas de milhões de reais.

Fiquei fascinado com o trabalho deles — e, como era e é tudo open source na Serenata, comecei a vasculhar os dados e os códigos do robô. Em pouco tempo e com nenhuma vergonha na cara, pedi a eles que me ensinassem a fazer as análises que servem de “cartilha” para o robô aprender o que é fraude e o que não é. Como é comum na comunidade Python, eles me acompanharam durante meu começo de aprendizado, desde meu primeiro print(“Hello World”). Sempre tiveram paciência e boa vontade ímpares. Sou muito grato a eles por isso.

Depois passei a fazer alguns cursos de Python e SQL. Cursos online mesmo, em plataformas como Udacity, Codecademy, etc. E, como meu objetivo sempre foi aprimorar o trabalho como analista de dados — e não somente como desenvolvedor — fiz alguns cursos direcionados a jornalistas de dados na Abraji, no Knight Center…

Além da Serenata e dos cursos, vejo muitos vídeos no YouTube — sério, há canais muito bons! — , leio muitos livros técnicos, passo horas vendo códigos no GitHub e acompanhando threads no Stack Overflow.

As habilidades que você adquiriu foi por necessidade profissional ou não estão relacionadas com teu background?

Antes de mais nada, devo dizer que minhas habilidades são bastante limitadas em comparação às de alguns jornalistas de dados, como a equipe do Estadão Dados, a do Nexo, a do Volt Data Lab, a do Globo Esporte, a do G1… Esses homens e mulheres, sim, são extremamente habilidosos. Eu sou apenas um aprendiz.

O que aprendi foi por persistência, pela certeza de que esse conhecimento apenas me tornaria um jornalista melhor, mais bem equipado, por assim dizer.

Qual foi o papel da curiosidade nesse ambiente?

Há uma segunda camada de curiosidade no jornalismo de dados. Veja, todos os jornalistas devem ser curiosos por natureza. Mas nesta área, além de querer apurar, de correr atrás das histórias como todos os jornalistas, é preciso ser curioso para aprender melhores formas de trabalhar com dados. E aí entram aprender uma nova linguagem, experimentar uma nova ferramenta para fazer gráficos, estudar códigos disponíveis… Então acredito que essa “dupla curiosidade” é protagonista na formação do jornalista de dados.

Do ponto de vista tático, como você começou a estudar? Se tiver links, vídeos, cursos para recomendar seria ótimo ouvir a perspectiva de quem já meteu a mão na massa.

Eu comecei lendo os notebooks do pessoal da Serenata e fazendo parte do grupo deles no Telegram, onde se discute muito tanto as análises quanto os códigos do robô. Fiquei meio perdido no começo, mas eles sempre foram gentis e didáticos. E olha que eu errei muito no começo!

Enfim, “errar sempre para errar melhor”.

Depois fiz o curso da Abraji e do Knight Center. Em algum momento eu fiz um curso no Codecademy, que é excelente como introdução. Aí passei para o nanodegree da Udacity.

Também assisto aos vídeos de Corey Schafer no YouTube e leio muita coisa da editora Novatec — agora estou lendo “Web scraping com Python”.

E quando tenho dúvidas, sempre recorro ao Stack Overflow.

E das análises que você criou, qual delas você mais gosta? Quais foram as principais dificuldades que encontrou?

Certamente a análise que fiz e que mais se popularizou foi sobre as viagens do prefeito de São Paulo, João Doria. Os veículos comentavam que ele viajava muito, mas não mostravam um cálculo, que fosse, para comprovar isso. Resolvi transformar isso em gráfico, tabela etc., para ver quantos dias o prefeito havia passado longe da Capital.

E aí vi coisas interessantes: a cada 5 dias, ele (Dória) passa 1 fora da cidade; as viagens aumentaram significativamente depois que o nome dele começou a ser considerado para a presidência, em março…

Enfim, foi uma análise interessante.Mas não é a minha favorita, confesso. A que mais gostei de fazer devido à complexidade — e que foi pouco vista, pois ficou pouco tempo no ar — foi sobre o tempo gasto pela zeladoria de São Paulo para atender às demandas do SP156. Buracos de rua, caçambas de lixo irregulares, poda de árvores…

Afinal, quanto tempo a prefeitura leva para solucionar os problemas? Esse tempo aumentou da última gestão para esta? Quais os bairros onde há mais reclamações? Quais reclamações são mais comuns? Todas essas questões eram respondidas na análise (que saiu do ar porque eu decidi fazer algo melhor e que será apresentado em breve.)

Quanto às dificuldades, devo ressaltar que percebo nitidamente a intenção da atual gestão em esconder dados. Planilhas que eram atualizadas com determinada frequência em outros anos passaram a ficar defasadas; dados públicos que eram fáceis de serem encontrados agora são mais complicados etc. Este é um grande problema para quem lida com informações locais, como eu. No caso da agenda do prefeito, notei que não havia uma API para isso, e que a estrutura do site não permitia raspagem de dados — ou seja, eu tinha que entrar diariamente no site, ver na agenda onde ele estava, anotar manualmente… Um trabalho que poderia ser economizado, certamente. Já na análise do SP156, percebi que havia inconsistência em alguns registros, como falta de latitude e longitude. Isso quebra uma análise que pretende contemplar a totalidade dos registros.

Qual análise você quer fazer, mas ainda não teve tempo de rodar. Ou seja, onde sua intuição diz que você vai encontrar algo interessante, mas não teve tempo de checar ainda?

Há algumas análises bem interessantes em que estou trabalhando neste momento, mas que não posso comentar ainda — afinal, é material jornalístico que deve ser preservado até sua publicação. Mas há alguns estudos que eu gostaria de fazer por conta. Por exemplo, o cruzamento dos sócios das empresas que prestam serviços para a administração pública e o banco de dados do TSE sobre doadores de campanha e filiados a partidos. Acho que isso pode dar resultado interessante.

Agora é a hora de ser otimista: vamos em busca da análise que você gostaria de fazer mas não pode. Que dataset você gostaria de ter acesso para responder suas perguntas?

Na análise que mencionei, eu precisaria ter acesso a certidões disponíveis nas juntas comerciais dos Estados e na Receita Federal para saber quem são os sócios das empresas. O problema é que as juntas comerciais são autônomas sobre a liberação dessas informações: algumas disponibilizam documentos digitalizados, como São Paulo, enquanto outras não têm o serviço de digitalização — ou têm e cobram pelo acesso. Essa falta de padronização é uma pedra no sapato.

Além disso, nenhuma junta comercial disponibiliza API para acesso aos dados ou um repositório com todos os dados: você precisa entrar no site, se cadastrar, passar pelo captcha… A Receita também não há API e a busca é empresa por empresa, manualmente. Enfim, uma burocracia imensa para dados que deveriam ser públicos!

Então acredito que um dataset fundamental — e que certamente levaria a análises incríveis — é sobre o quadro societário das empresas no Brasil.

Para fechar, adoraria ouvir recomendações de sites e comunidades interessantes, especialmente no Brasil. Se você tiver recomendação de index de datasets legais, também seria ótimo.

Uma comunidade bem legal é o grupo “Jornalismo de Dados”, no Facebook. Ali há muita gente foda na área. Gente de diversos veículos que tratam de temas variados: ferramentas, linguagens, cursos, até mesmo solução para dúvidas de outros colegas. É uma galera bem parceira que tem o objetivo de aprimorar o estudo em jornalismo de dados.

E há diversos índices essenciais, como o conjunto de dados do governo federal, com mais de 3 mil conjuntos de dados de diversos órgãos e empresas estatais; o do IBGE, com os registros usados nas pesquisas e estatísticas; o do Inep, que é bastante amplo e tem microdados capazes de mapear a educação no País.

Rodolfo, muito obrigado pela conversa. É sempre enriquecedor conversar com quem tem experiência na linha de frente quando estamos começando algo novo, como muitos de nós aqui no DataNoob. Onde as pessoas podem te encontrar online?

Eu agradeço o convite. Fico muito feliz em poder falar um pouco sobre análises de dados. E também fico ansioso para ouvir outras experiências, aprender um pouco com os colegas. Por isso, podem me achar no Twitter (@rodolfoviana) ou por e-mail (rodolfo@rodolfoviana.com.br). E também no GitHub (https://github.com/rodolfo-viana/dailylog), onde tenho pouca coisa em repositório aberto, mas estou sempre à disposição para colaborar com projetos legais. Muito obrigado pelo espaço e até logo.