O que eu aprendi com o Open Data Day e com os bens declarados pelos candidatos à presidência do Brasil

Beatriz Yumi Simoes de Castro
Somos Tera
Published in
10 min readMar 8, 2020
Durante o evento tinham camisetas da escola de dados, um dos programas da OKBR à venda, então eu decidi — literalmente vestir a camisa do programa

No dia 07/03/2020 participei do Open Data Day, uma edição realizada pela Open Knowledge Brasil com o Goethe-Institute. A proposta do evento, com duração de 9h30 até 17h30, era dividir a parte da manhã com palestras e a parte da tarde com uma oficina mãos na massa. Eu não sabia como seria a oficina a tarde e também não sabia o quanto conseguiria contribuir ou até mesmo concluir atividades devido ao meu conhecimento tanto de política, já que o tema do evento eram dados abertos do legislativo, quanto de programação em si, mas, como dizem, se não tentar, não dá pra saber.

Período da manhã

O evento começou com uma abertura do Goethe recebendo a Open Knowledge Brasil — OKBR e com algumas informações passadas pela Fernanda Campagnucci, atual diretora executiva da OKBR. Ela mostrou alguns dados bem interessantes de embaixadores da OKBR ao redor do Brasil e de como isso contribui para a realização de Open Data Days em outras localidades.

Guilherme Russo apresentando mapas e votos por região no estado de São Paulo

Em seguida começaram as palestras, sendo a primeira da Lara Mesquita e do Guilherme Russo. Ambos são cientistas políticos do CEPESP da FGV e falaram sobre como explorar dados do TSE pelo CEPESP. Antes de se aprofundar nas ferramentas e nos dados disponíveis pelo CEPESP eles fizeram algumas dinâmicas conosco para entender melhor a diferença dos dados que podemos obter e até mesmo como inferir informações através dos dados que vemos distribuídos no mapa do estado de São Paulo. Eles começaram falando sobre como se estudar os eleitores de deputados, e chegamos todos a conclusão de que se resumem a questões demográficas — provenientes de pesquisas de opinião, e a questões espaciais — proveniente de mapas.

Mapa com Medida QL

Em ambos os casos, no segundo mapa se aplicou a medida de quociente locacional, ou seja, distribuem de forma proporcional à população de cada município a quantidade de votos. Dá para perceber que, apesar da Janaína Paschoal ter 2.060.768 votos, ela não teve nenhuma performance extraordinária em nenhum município, ao contrário de Caio França, que teve sim uma performance bem forte em diversos municípios. Outro ponto que foi levantado que achei interessante é que Janaína teve apenas 587.486 votos na cidade de São Paulo, que teve um comparecimento no dia das eleições de 7.133.362 eleitores, ou seja, teve 8,2% de representatividade na cidade mais populosa do estado. Já no estado teve uma representatividade de 28,9%.

Lara Mesquita apresentando a CEPESP e suas ferramentas

Depois, eles ainda mostraram ainda alguns outros candidatos, o Edmir Chedid de Bragança Paulista, o Cauê Macris e o Sebastião dos Santos.

Em seguida eles começaram a mostrar a ferramenta da CEPESP, que pode tanto ser acessada via site quanto pode ser acessada via API. É importante ressaltar que a CEPESP já realiza um trabalho prévio de tratativa de dados que permite a correlação entre todas as bases que se pode obter neste respositório. Quando se entra no site, basta ir no canto superior direito que já tem um botão que leva para o CEPESP data.

Outro ponto que foi ressaltado é que o CEPESP mantém a informação da data da eleição, não a da justiça posterior. Por exemplo, se houve votos para um candidato que é cassado, os votos são mantidos na base do CEPESP, pois é interessante verificar a intenção de votos.

Também não tem o nível de vereador ainda porque o nível de agregador é município e a complexidade é maior. A meta é nos próximos 2 a 3 meses incluir São Paulo e mais 9 municípios e o Rio de Janeiro.

Fernanda Campagnucci e Ariane Alves falando sobre o projeto Parlametria

Em seguida a Fernanda Campagnucci e a Ariane Alves falaram sobre o projeto Parlametria. É um projeto muito bacana, apesar do público alvo dele não sermos nós pessoa física, entendo que também podemos usufruir muito.

Lá dentro você encontra o Perfil Parlamentar, que dá o contexto parlamentar dos deputados federais e dos senadores, como estão atuando e com quais grupos estão conectados. É possível de verificar nos pesos políticos o peso da fatia do orçamento do partido que cada um recebeu, por exemplo.

Dentro da Parlametria também tem o Leg.go, que usa as informações obtidas de uma API do Congresso e do Google Trends. Todavia, tem muita informação que não estava disponível, então existem até documentações nos relatórios que foram enviadas informando a dificuldade de ter acesso as mesmas.

Em seguida veio o Marcelo Soares, que contou muito de como funcionava o jornalismo e a política ao longo dos anos, porque a pesquisa de dados mudou drasticamente. Foi muito interessante poder ouvir seu relato, porque como ele tem 22 anos de experiência como jornalista de dados, ele tem uma vivência muito rica para compartilhar conosco. No final ele trouxe um passo a passo de como conseguir trabalhar com datasets para cruzar dados e conseguir informações relevantes.

Datasets que o Marcelo elencou como importantes para poder fazer cruzamentos de dados
Dicas do Marcelo para lidar com homônimos

Por último tivemos a palestra do Pedro Markun. Foi muito interessante ouvir suas opiniões sobre os desafios sobre os dados abertos do legislativo. Acho que ele foi bem honesto e o que disse apenas corroborou o que foi dito nas palestras anteriores: existem informações, mas não são as melhores, nem sempre são completas, nem sempre são em datasets, nem sempre são fáceis de ser acessadas, nem sempre dá pra acessá-las. Todavia, é bem bacana ver que assim como ele, muitas pessoas se juntam pra tentar transformar essa realidade. O próprio evento é uma prova disso.

Fernanda Campagnucci, Ariane Alves e eu

Período da tarde

No período da tarde tivemos a oficina mão na massa e achei que foi bem bacana a proposta, porque cada mesa decidiu no que iria trabalhar e seguiu com isso. Eu em particular decidi seguir em frente com o uso da API da CEPESP e depois que comecei a utilizá-la, vi que ela é muito fácil de ser usada, então decidi criar alguns painéis interativos de mapa de calor que representassem a declaração de bens por estado dos candidatos à presidência de 2010 até 2018. Caso você queira ver tudo o que eu fiz em detalhes, você pode acessar meu github.

A primeira coisa que fiz foi importar as bibliotecas e o json com as latitutes e longitutes dos estados do Brasil.

Em seguida usei a API da CEPESP para buscar as informações de bens declarados pelos candidados à presidência em nível estadual e salvei em uma variável diferente para cada um dos anos que eu fui observar.

Em seguida tratei os dados para primeiro renomear as colunas, em seguida transformar os strings que vem na coluna de VALOR_BEM — que contém o valor declarado de bens, em valores (os valores vem em formato de reais, precisa ser transformado em valores americanos) e por último fiz um agrupamento por UF e transformei novamente em DataFrame. Vou colar apenas dois trechos de código, note que o de 2012 é um pouco diferente, ele tinha já alguns valores que estavam como float antes.

Depois disso, eu fiquei bastante tempo durante o evento tentando usar a biblioteca Folium, mas sem sucesso. Quando cheguei em casa, decidi tentar outras bibliotecas, e optei por usar a plotly.express. Já disse aqui em outro post que eu gosto muito dessa biblioteca, ela tem gráficos muito bonitos, eles são interativos e o problema que todos dizem sobre ela — não funciona quando se está offline — é muito facilmente resolvido na minha realidade. Eu havia optado, independente da biblioteca, por usar um gráfico de choropleth, que é um mapa poligonal que é melhor adequado para representar diferença de quantidade dentro de cada polígono.

No código do plotly é importante colocar projection = ‘mercator’ para deixar seu gráfico proporcional. Já o featureidkey é o que faz com que seu json tenha uma chave em comum com seu dataframe. O fitbounds = ‘locations’, visible = False garante que apenas os polígonos que você tem no DataFrame vão ficar visíveis.

Logo depois do gráfico, eu fiz uma tabela, que seguiu a estrutura de código demonstrada a seguir.

Agora vamos observar os gráficos dos anos sequencialmente, vou por minha reflexão sobre cada um dos anos e depois vou colocar as tabelas e minhas conclusões sobre elas.

Gráficos com mapa de calor por declaração de bens

Minhas reflexões sobre apenas observando os mapas são as seguintes:
2010. Para mim o gráfico faz muito sentido, você tem São Paulo com um alto valor de bens declarados, mas com valores distribuídos ao longo do país também. Quero ver se a tabela que vou montar corrobora com esta visão.
2012. Me estranha muito que São Paulo teve cerca de metade de valor declarado do primeiro colocado. Todavia, se estivermos falando de grandes fazendeiros, talvez faça sentido. Ainda assim, é estranho pra mim que o sul e o sudeste não estão tão fortes em questão de bens.
2014. Minhas ressalvas para 2014 são similares às de 2012, todavia, com menos estranheza, já que o valor declarado em São Paulo foi mais próximo ao de 2010. Estou observando mais a fundo São Paulo porque sou moradora do estado e porque entendo que é um dos estados mais populoso do Brasil.
2016. A primeira observação que tenho pra fazer é que a escala de valores declarados praticamente triplicou. Minas indicar 7 bi é realmente impressionante, mas completamente factível. Já São Paulo e Rio de Janeiro ficaram em seus cerca de 2 bi.
2018. Voltamos a ter uma escala um pouco menor e aparentemente só São Paulo declarou bens neste ano, cerca de 4 bi.

Tabela, quantidade total de candidatos e valor total declarado de bens por ano

2010

Realmente o sul e sudeste tem o grosso do valor dos 10 primeiros estados em valor declarado, o que está refletido no mapa.

2012

Não me lembro de como foi a distribuição dos candidatos e quais foram eles, mas não houve um aumento significativo no valor declarado e são paulo reduziu cerca de 0,9 bilhões de reais em bens declarados. Será que todos os candidatos saíram da corrida? Será que esses bens não foram declarados neste ano?

2014

Depois de observar a tabela com calma e ver o total realmente dá uma sensação estranha, como que o estado de Tocantins consegue declarar 2 bi e São Paulo e Rio de Janeiro juntos não chegam nesse valor? Sendo que esses dois últimos tem mais de 9 mil candidatos e Tocantins tem 700.

2016

Os 10 primeiros estados juntos declararam 26,5 bilhões de reais em bens. Tudo isso pra apenas 127 mil pessoas.

2018

Os valores dos últimos fica tão longe do primeiro colocado que a escala não pinta corretamente os valores próximos do primeiro lugar.

Esses foram os resultados e as análises que realizei em cima dos dados disponibilizados pelo TSE e tratados pela CEPESP durante o Open Data Day. Fiquei bem desconfortável com como as informações foram disponibilizadas para o TSE pelos candidatos, não me sinto segura de que representam a realidade. Acho que nós temos que fazer nossa parte também e exigir mais transparência e observar tanto dados quanto comportamentos e apontar o dedo quando algo não está de acordo. Espero que esse estudo ajude de alguma forma com isso.

Meus colegas da Tera que participaram do Open Data Day comigo

--

--

Beatriz Yumi Simoes de Castro
Somos Tera

ela/dela | data analysis | entusiasta de data science e machine learning