Quanto dinheiro gasta um político brasileiro?

Usando Python para entender como os políticos usam nosso dinheiro.

Introdução

Aprender data science não é fácil. É prazeroso, mas não é fácil. São tantas informações e tantas técnicas para dominar que é fácil se sentir perdido em meio a um mar de informações.

Desde o início do meu caminho já aprendi muitas coisas, mas recentemente tenho me sentido um pouco perdido. A mesma vontade que me impele a seguir em frente, em alguns momentos se torna ansiedade. Ansiedade de aprender e me sentir preparado para exercer a função de cientista de dados. Mas não adianta querer acelerar o tempo, o caminho dos dados é longo, como já li em muitos artigos publicados aqui: esse caminho é uma maratona, não é uma prova de velocidade.

A virada de ano foi o momento no qual decidi colocar no papel (literalmente) todas as minhas conquistas e aprendizados de 2018 e também colocar o pé no freio, respirar fundo, limpar minha mente e planejar o que quero aprender em 2019.

Pensando dessa forma, darei foco na atividade que na minha opinião, é a de maior importância para qualquer um que pretende trilhar o caminho dos dados: a Análise Exploratória de dados a popular EDA (do inglês Exploratory Data Analysis).

É essencial para um cientista de dados conhecer os dados com os quais está trabalhando, suas relações, tendências, distribuições e tantas outras características. Mas como disse, nada de dar um salto. Quero seguir um passo de cada vez. Por este motivo neste artigo pretendo realizar uma simples exploração de dados a fim de exercitar os princípios mais básicos dessa técnica, que consiste em simplesmente fazer perguntas e usar os dados para respondê-las.

Assim, devagar e sempre, seguimos no caminho dos dados.

Contexto da análise

Parlamentares brasileiros — fonte

Para este exercício iremos usar o conjunto de dados sobre a Cota para o Exercício da Atividade Parlamentar, a CEAP. Em resumo, a CEAP pode ser definida como : “cota única mensal destinada a custear os gastos dos deputados exclusivamente vinculados ao exercício da atividade parlamentar.”.

Em outras palavras, a CEAP é uma espécie de ajuda de custos (e bem gorda por sinal) que nossos digníssimos representantes podem usar para arcar com gastos referentes a alimentação, transporte, hospedagem, consultoria técnica, combustíveis e entre outras despesas.

A CEAP é regida por uma série de regras que podem ser consultadas aqui. Mas a ideia fundamental desse artigo é desenvolver um exercício de exploração de dados, sem entrar em pormenores técnicos da legislação. Uma exploração mais profunda e infinitamente mais arrojada desses dados pode ser acompanhada no site da operação Serenata de Amor, uma iniciativa que visa fiscalizar os gastos realizados pelos nossos políticos. É realmente um iniciativa que coloca o poder da ciência de dados para trabalhar a favor do povo.

A análise se dividirá em três etapas:

  1. Limpeza dos dados: Consiste na carga, verificação das características que compõem o conjunto, preenchimento de dados ausentes(quando possível), formatação e ajustes gerais para viabilizar a análise adequada.
  2. Análise exploratória: A análise propriamente dita. Após a etapa anterior, podemos elaborar as questões que acreditamos que o conjunto de dados possa fornecer as respostas;
  3. Conclusão: Resumir as descobertas realizadas.

Os dados que utilizaremos contemplarão o período de tempo entre 2015 e 2017, pois representam a legislatura mais recente (não utilizaremos os dados de 2018, pois estes ainda estão incompletos).

Todos os materiais e o código em Python utilizados nessa análise estão disponíveis neste repositório do Github. Também criei um painel do Tableau que permite que o leitor explore os dados por estado, parlamentar e tipos de gastos.

Painel de visualização no Tableau — clique aqui para explorar!

Agora, vamos ao trabalho!

Limpeza dos dados

Essas são as bibliotecas que usaremos para essa análise:

Bibliotecas usadas para a análise.

Um bom cientista de dados, precisa saber comunicar seus resultados. É muito mais conveniente apresentar dados através de gráficos simples e bonitos. Nessa análise, optei por usar a biblioteca plotly. Essa biblioteca exige um pouco mais de codificação do que a tradicional matplotlib, justamente por este fato, o ideal é criar algumas funções de plotagem para os gráficos que serão mais utilizados.

O esforço vale a pena, pois entre tantas outras vantagens, as escalas dos eixos são ajustadas automaticamente, ideal para essa análise tendo em vista que os valores são da ordem de milhões. A matplotlib ajustaria as escalas em notação científica, numeração com a qual a maioria das audiências não é muito familiarizada (eu inclusive). Então usar a plotly é a escolha certa neste caso!

O uso dessa ferramenta parece um pouco complicada no início, mas com um pouco de paciência e usando os excelentes tutorias disponíveis na sua documentação, você dominará seu uso em pouco tempo!

Você também pode consultar estes excelentes artigos publicados aqui no Medium:

Este conjunto de dados tem um número considerável de colunas, portanto selecionei as colunas relevantes para essa análise. São elas:

  • txNomeParlamentar — Nome do parlamentar;
  • sgUF — Sigla do estado que o parlamentar representa;
  • sgPartido — Sigla do partido;
  • txtDescricao — Descrição do tipo de despesa;
  • vlrLiquido — O valor que será reembolsado para o parlamentar;
  • numMes — Mês do reembolso;
  • numAno — Ano do reembolso.

Todas as colunas e suas respectivas explicações podem ser encontradas aqui.

Para agilizar este post e seguirmos direto para a análise, não irei publicar aqui as etapas de tratamento dos dados, mas como dito, você pode consultar todos os detalhes dessa etapa no meu repositório do Git. Mas é importante dizer que durante este processo criei uma coluna chamada “data”, que permitirá avaliar a evolução dos gastos ao longo do tempo.


Após a limpeza e preparação dos dados, podemos iniciar a nossa exploração. Iremos começar com perguntas bem básicas a fim de conhecer melhor o conjunto de dados. Acredito que poderemos responder facilmente as seguintes questões.

a. Como se comportam os gastos com cotas parlamentares ao longo do tempo? Existe alguma tendência de aumento ou redução desse custo? Existe sazonalidade?

b. Quais foram os parlamentares que mais consumiram recursos?

c. Quais foram os que menos consumiram recursos?

d. Quais são as categorias de despesas mais onerosas dentre os recursos destinados às cotas parlamentares?

e. Qual é o gasto por estado?

f. Quais estados tem maior número de representantes?

g. Quais partidos mais consomem a cota parlamentar?

h. Qual a média de gastos por parlamentar?

Ao final, investigaremos a relação dos gastos com combustíveis e o valor médio do litro do combustível para responder se a variação desses gastos são explicadas pela variação do preço do combustível.


Análise exploratória

Primeiramente, vamos usar o método describe() do pandas. No meu ponto de vista, esse método é útil tanto para encontrar anomalias que devem ser tratadas, quanto para extrair informações úteis rapidamente através de um resumo estatístico.

Usar o argumento include="all", traz as frequências dos dados em formato object, o que torna o método ainda mais poderoso.

Um rápido resumo estatístico dos dados.

Graças a este método, vejam alguns dados relevantes que já podem ser extraídos sobre a legislatura de 2015 (até o ano de 2017):

  • A média do valor de cada pedido de reembolso é de 614 reais;
  • O maior reembolso/pagamento foi de 189 mil reais;
  • O pedido de reembolso mais frequente refere-se a emissão de bilhete aéreo. O que faz sentido, tendo em vista que a maior parte dos parlamentares não mora em Brasília;
  • Diego Garcia é o político que mais solicitou reembolsos no período observado.

Agora vamos buscar responder as perguntas propostas.

1. Como se comportam os gastos com cotas parlamentares ao longo do tempo? Existe alguma tendência de aumento ou redução desse custo? Existe sazonalidade?

Vamos entender como os gastos com cotas parlamentares evoluíram ao longo do tempo.

Gastos por ano.

Em 2016 os gastos atingiram 221 milhões. A título de curiosidade, entre 2015 e 2016 o Brasil esteve mergulhado em uma de suas maiores recessões, tendo quedas consecutivas no PIB, sendo -3,8% e -3,6% em 2015 e 2016 respectivamente. Mesmo a pior crise desde 1945, não parece ter afetado o crescimento dos gastos dos parlamentares.

Vamos verificar se existe sazonalidade nos gastos com cotas. Para isso, vamos plotar os últimos três anos dos gastos parlamentares em um gráfico de linhas, usando a nova variável “data”.

Observando o gráfico acima, parece haver um certo padrão de comportamento. Os gastos são sempre menores no início do ano e tem um pico em dezembro. O que explicaria esse padrão ? O recesso parlamentar ?

Aqui podemos responder nossa primeira questão. É claro que há uma tendência de alta nos gastos com cotas, como vimos no gráfico de barras, e existe um padrão cíclico nestes gastos que podemos chamar de sazonalidade.

Vamos para a próxima.

2. Quais foram os parlamentares que mais consumiram recursos ? E quais foram os que menos consumiram recursos?

Vamos descobrir quem são os parlamentares com maiores gastos.

Top 5 parlamentares que mais gastaram na legislatura 2015:

  • Édio Lopes;
  • Jhonatan De Jesus;
  • Silas Remídio Monai;
  • Hiran Golçalves;
  • Rocha (?).

Édio Lopes, o líder desse ranking, gastou mais de 1.6Mi ao longo de 36 meses. Para se ter uma ideia, com este dinheiro seria possível pagar 1648 salários mínimos, que atualmente é de 998 reias. O político gastou cerca de 45mil reais por mês. De acordo com a lei da CEAP, por representar o estado de Roraima o deputado teria um limite mensal de gastos de 45 mil reais, na média, o parlamentar está estritamente dentro do limite.

O político está em sua terceira legislatura.

3. Quais os políticos que menos consumiram as cotas parlamentares ?

  • João Caldas;
  • Eliseu Padilha;
  • Rui Costa;
  • Antônio Andrade;
  • camilo Cola.

É estranho encontrarmos valores negativos. Será que o parlamentar devolveu dinheiro ? Segundo a explicação dos dados disponível no site da câmara:

“(…)Quando se tratar de bilhete aéreo, esse valor poderá ser negativo, significando que o referido bilhete é um bilhete de compensação, pois compensa um outro bilhete emitido e não utilizado pelo deputado (idem para o dado vlrLiquido abaixo).”

Sendo assim, podemos considerar que estes parlamentares são os que menos gastaram.

4. Quais são as categorias de despesas mais onerosas dentre os recursos destinados às cotas parlamentares?

Como vimos no início da análise, embora a Emissão de Bilhetes aéreos seja a categoria mais frequente, ela não é a com maior volume de gastos. A maior parte dos recursos da cota são consumidos com “Divulgação da atividade parlamentar”.

5. Qual é o gasto por estado?

  • São Paulo: 206M
  • Minas Gerais: 164M
  • Bahia: 129M
  • Rio de Janeiro: 128M
  • Rio Grande do Sul: 105M

6. Qual estado tem maior número de representantes ?

Os números acima, são um pouco estranhos. A quantidade total de parlamentares presentes no conjunto de dados é de 845, muito superior aos 513 definidos pela constituição.

Por que isso acontece ?

Em minhas pesquisas, localizei os seguintes pontos que podem explicar essa diferença:

  1. Dentro do conjunto de dados, podem estar listados como deputados seus suplentes. Todos os deputados possuem suplentes que podem assumir sua função em caso de licença, morte, cassação ou caso o deputado assuma outro cargo político. Esses suplentes passam a gozar dos mesmos direitos do parlamentar originalmente eleito, inclusive a cota.
  2. No dataset, além de termos os deputados, também estão listados as lideranças dos partidos, que inclusive são os que mais gastam com reembolsos relativos à alimentação.

Consultando o Portal da Câmara dos Deputados, na seção controle do cidadão(clique aqui para acessar) onde qualquer um pode fiscalizar os gastos por deputado, são listados 999 parlamentares diferentes e 28 lideranças de partido.

Me parece um detalhe que não impacta nos resultados da análise. Pois de acordo com a Constituição Federal, art45 o número de deputados por estado é proporcional à sua população e como vimos no gráfico acima, os estados mais populosos lideram a lista de maior representatividade.

Ah ! E você sabia que além de todas as mordomias, os suplentes tem direito a uma ajuda de custos de mais de 30 mil reais ao assumirem o cargo ?

Além disso, segundo essa reportagem, quase 20% dos parlamentares em exercício na câmara, são substitutos. Ou seja, uma boa parte dos políticos que estão lá nunca foram eleitos pelo voto do povo.

Nos gráficos acima, não há muita surpresa, os estados com mais representantes geram maior custo.

7. Quais partidos mais consomem a cota parlamentar e quais tem o maior número de representantes ?

Vejamos se os partidos mais representativos, são os que mais consomem:

  • PT: 230MM;
  • PP: 158MM;
  • PSDB: 150MM;
  • MDB: 136MM;
  • DEM: 121MM.

Basicamente, o padrão é similar ao que vimos na análise por estado. Maiores partidos, tem mais gastos.

8. Quais parlamentares tem a maior média de gastos?

Neste ponto precisamos determinar uma quantidade mínima de vezes que o parlamentar aparece no dataset ou seja, a quantidade de vezes que ele solicitou reembolso. Arbitrariamente, irei considerar como valor mínimo de cem vezes.

Usei o código abaixo para fazer essa seleção:

Agora vamos ver os cinco parlamentares com a maior média de gastos.

  • Armando Vergílio: 3600
  • Lucas Vergílio: 3043
  • Altineu Cortês: 2633
  • Marcos Antônio: 2492
  • Fernando Torres: 2296

Os parlamentares que mais gastam não são necessariamente os que tem maior média de gastos.

Uma análise sobre os gastos com combustíveis e lubrificantes

Um dos gastos que mais pesam no bolso do trabalhador brasileiro, são os gastos com combustíveis e este tipo de despesa ocupa a sexta posição nas categorias mais onerosas, representando mais de 54 milhões em gastos.

Como veremos a seguir, o valor do combustível no Brasil só cresceu desde 2013.

Aqui além de avaliar o volume anual de gastos, também iremos buscar entender se o valor do combustível influencia no total desses gastos. Para isso, precisei obter o conjunto de dados da ANP, que pode ser extraído daqui.

Este conjunto de dados representa o preço médio mensal do litro da Gasolina, Etanol, Diesel e Gás de Cozinha desde 2013. Nessa análise, consideraremos apenas Etanol e Gasolina, por serem combustíveis mais comumente utilizados. Além disso, como o dataset da câmara não especifica o combustível utilizado pelo deputado, optei por unificar o preço do etanol e da gasolina, criando uma métrica única mas que acredito ser capaz de captar as variações de preço.

Vejamos o gasto anual com combustíveis:

De acordo com os gráficos acima, em 2017, houve uma redução no total geral de gastos com essa despesa. Observando a evolução, o pico desse gasto foi em março de 2016, atingindo 1.7mi. Considerando 2016 e 2017, parece que os gastos começam a cair em setembro até o final do ano.

Olhando este intervalo de tempo, eu diria que os gastos estão crescendo, pois mesmo havendo uma queda em 2017 em relação à 2016, o volume total de gastos em 2017 ainda é maior que em 2015.

Os gastos com combustíveis tem relação com o preço médio do combustível ?

O aumento com os gastos está relacionado ao preço do combustível em si, ou com a quantidade de solicitações de reembolso ?

Vamos ver a evolução dos pedidos de reembolso para essa despesa:

De acordo com o gráfico acima, o número de reembolsos parece cair, mas como já vimos anteriormente, o valor não.

Para essa análise, usarei o período entre 2015 e 2017 dos dados sobre o preço do combustível, pois é o mesmo período em que estamos analisando os gastos dos parlamentares.

Abaixo, conjunto de dados do preço dos combustíveis. Copiei a coluna mês e transformei ela em índice para facilitar análises ao longo do tempo.

Como já temos este conjunto de dados carregado, não custa nada conhecer um pouco melhor o valor do combustível no nosso país. Vamos dar uma olhada na evolução do preço médio do combustível:

De setembro de 2015 à março de 2016 houve uma subida vertiginosa no preço do combustível. Passando por um período de queda entre abril e junho de 2016, mas vemos nova subida a partir de setembro do mesmo ano. É clara a tendência de alta do combustível.

E o preço médio do litro por estado ? Vale mais a pena usar etanol ou gasolina? Abaixo, demonstro a média do litro desses produtos por estado:

Eu moro em São Paulo, e achava a gasolina muito cara por aqui, mas basta olhar para o preço do Acre pra me sentir menos revoltado. Enquanto em São Paulo o preço médio da gasolina é de R$3,33 o cidadão acriano precisa pagar R$3,98, preço 20% maior. Que inclusive é a gasolina mais cara do país. Olhando para as grandes metrópoles, o Rio de Janeiro não fica muito bem, com o preço médio da gasolina sendo de R$3,73.

E no seu estado ? Faz sentido o valor que você paga pelo combustível ? Você tem algum tipo de reembolso para essa despesa ? Se você não for um parlamentar, a resposta para essa pergunta provavelmente é não.


Voltando para a nossa análise, abaixo o conjunto de dados que usaremos para investigar a relação entre o preço do combustível e o valor de reembolso dos deputados. Reparem que criei uma nova coluna que se chama “tempo”, fiz isso pois quero ver como a passagem do tempo influencia na variação dos preços e dos gastos dos parlamentares.

Cada número indica o mês de um ano, por exemplo, 1 representa janeiro de 2015, 2 fevereiro de 2015 e assim sucessivamente.

Além disso, temos a coluna, “qtd_pedidos” que indica o número de vezes em que esse tipo de reembolso foi solicitado.

Agora iremos utilizar a biblioteca seaborn para visualizar as relações que pretendemos explorar. Essas biblioteca é extremamente útil para explorar os dados considerando métricas estatísticas mais avançadas. O seu uso permite facilmente entender a correlação entre os atributos de um dataset através de uma simples linha de comando.

Certamente uma das minhas bibliotecas favoritas !

Primeiro, iremos plotar um heatmap indicando a correlação das variáveis do nosso recém-criado conjunto de dados. Abaixo o código usado, para ilustrar a simplicidade de uso da biblioteca seaborn!!

Abaixo o resultado:

Vamos analisar o gráfico acima, mas antes, é importante entender a definição de correlação. A melhor definição que encontrei durante meus estudos é a descrita por Charles Wheelan em seu excelente livro “Estatística: O que é, pra que serve e como funciona” a qual transcrevo a seguir:

“ A correlação mede o grau em que dois fenômenos estão relacionados entre si. Por exemplo, existe correlação entre as temperaturas de verão e a venda de sorvetes. Quando uma sobe, a outra sobe também. Duas variáveis tem correlação positiva se uma variação numa delas é associada a uma variação da outra no mesmo sentido(…). Uma correlação é negativa se uma variação positiva em numa das variáveis, está associada a uma variação negativa na outra, tal qual exercício e perda de peso.”

O valor da correlação sempre varia entre -1 e 1, sendo que valores negativos indicam correlações negativas e valores positivos correlações positivas.

Com isso em mente, as conclusões que podemos tirar do gráfico acima são:

  1. A relação entre gastos com combustíveis está positivamente relacionada com o número de pedidos. Ou seja, quando um aumenta, o outro também. O valor da correlação é de 0.86, portanto essa relação é muito forte!
  2. A correlação entre gastos com combustíveis e o preço médio do combustível também é positiva, indicando que o aumento do combustível também influencia no aumento dos gastos dos parlamentares com essa rubrica. Entretanto, o valor da correlação é baixo, apenas 0.30, indicando uma correlação fraca;
  3. Também é possível observar uma correlação positiva fraca(0.29) com o tempo, indicando que os gastos tendem a aumentar a medida que o tempo passa, ou seja, podemos esperar valores maiores com estes gastos nos próximos meses;
  4. Quando plotamos o número de pedidos de reembolso ao longo do tempo, vimos uma pequena queda. Essa queda é refletida em uma correlação de -0.09, ou seja, quase inexistente.
  5. Outro ponto que chama atenção é a forte correlação entre o preço do combustível e o tempo, como vimos anteriormente, o preço está em uma ascendente desde 2015 o que se reflete na correlação positiva de 0.85.

Como disse, o seaborn é uma poderosa ferramenta de análise estatística, para ilustrar de forma ainda mais clara essas relações, podemos usar a função pairplot que gera uma matriz exibindo a correlação das variáveis através de gráficos de dispersão. Mais uma vez, esse trabalho pode ser feito com uma única linha de código:

Este é o resultado:

Conclusão

Durante a minha análise confesso que fiquei surpreso e não fazia ideia do valor dos gastos com cotas. Este valor exorbitante ainda é completado por um salário de mais de 30 mil reais, auxílio moradia e verba de gabinete de quase 100 mil reais. Isso sem contar que nossos trabalham apenas 3 dias por semana e entre agosto e dezembro eles não trabalham (mas continuam gastando com a verba parlamentar).

Por estes e outros motivos é que podemos explicar por que a política no nosso país é na verdade uma carreira. Os políticos são uma classe extremamente privilegiada. Obviamente, eles precisam de ajuda de custos para executar seu trabalho, mas a questão é: Será que todo esse dinheiro é realmente gasto para a finalidade do exercício de suas atividades? Eles precisam realmente de salários tão altos ? E por que os gastos só crescem ?

Enquanto isso, o país ainda sofre tentando se recuperar de sua maior recessão, o salário mínimo não atingiu sequer mil reais e o desemprego atinge milhões de brasileiros.

A despeito de todas essas outras questões ao longo dessa análise aprendemos um pouco a respeito desses gastos, entendemos o conceito de correlação e descobrimos que a elevação dos gastos com combustíveis, depende muito mais da conscientização dos nossos parlamentares do que de qualquer outro fator levado em conta nessa análise.

Se você me acompanhou até aqui, agradeço imensamente e espero que tenha gostado. O trabalho continua, pois o caminhos dos dados é longo e em breve nos veremos novamente, até logo e fique a vontade para comentar.

Obrigado!