De Olho Na Câmara: Como Analisar os Dados Abertos da Câmara dos Deputados
Aprenda como acessar e analisar os dados da atividade parlamentar e despesas da Câmara
Análise e texto: Thaís Filipi
Edição: Giovane Caruso
Design e Edição de Arte: José Felix
Quais partidos possuem a maior mais proposições aprovadas na Câmara? Qual é o maior gasto dentre deputados(as) na utilização da Cota Parlamentar? Essa legislatura está mais ou menos ativa que a anterior?
A criação do Portal de Dados Abertos da Câmara dos Deputados facilitou muito o acesso da população à informações de interesse público sobre a atuação do nosso legislativo, mas algumas análises mais complexas ainda exigem um maior conhecimento sobre como os dados estão organizados, como se relacionam e como podem ser acessados de maneira prática e ágil.
É para você poder responder essas e muitas outras perguntas que nós criamos a campanha De Olho Na Câmara. O objetivo da campanha é promover uma série de conteúdos para te ajudar a construir suas próprias análises. Você pode conferir o artigo anterior, que recupera o contexto histórico da disponibilização dos dados da Câmara, além de um compilado de links e informações úteis. Considere também assinar nossa newsletter mensal para ficar por dentro dos próximos lançamentos.
Conheça os dados que te ajudam a monitorar a Câmara dos Deputados
O que você vai ler?
Neste artigo você vai encontrar informações sobre o processo de captura e atualização dos dados no nosso datalake, sobre como eles estão organizados e como aplicar tudo isso nas suas próprias análises. Vamos utilizar os dados de despesa de deputados(as) ao longo das últimas cinco legislaturas como exemplo.Veja os Tópicos:
- Introdução
- Como a BD captura os dados e como eles são atualizados?
- Compreendendo a cobertura temporal
- Chaves identificadoras
- Dados de despesa através das legislaturas
O site da Câmara dos Deputados disponibiliza os dados brutos e detalhados sobre a atividade legislativa feita pela Casa. São esses dados que possibilitam a criação de diversas iniciativas que promovem mais transparência sobre o poder público, como é o caso do LegislaBrasil, Serenata de Amor, dentre muitas outras.
Desde 2023, a Base dos Dados captura e atualiza os Dados Abertos da Câmara em nosso datalake público, que também armazena os principais indicadores públicos no país. Isso facilita muito o acesso e cruzamento dessas informações para criação de análise que respondem perguntas como as que abriram este artigo. Venha entender como você pode utilizar a BD para criar análises e monitorar os representantes da população brasileira dentro da Câmara dos Deputados.
Como a BD captura os dados e como eles são atualizados?
Parte fundamental de uma boa análise é compreender de onde saíram os dados utilizados, qual o seu contexto e por quais procedimentos passaram antes de chegar na sua planilha ou linha de comando (por isso mesmo, recomendamos a leitura do artigo anterior, que explica o contexto dos dados da Câmara). Veja como funciona o processo de tratamento e inserção de dados na BD.
Nossa equipe especializada captura os dados por meio de requisição no site da Câmara, que você e qualquer pessoa também tem acesso. Todo o fluxo do trabalho é aberto e está disponível no GitHub da Base dos Dados, para quem tem interesse em se debruçar sobre os detalhes. O que vale ressaltar é que o processo de captura é automatizado e, por ele rodar todos os dias, você tem a garantia de que sempre vai ter a versão mais atualizada dos dados.
Outra observação importante é sobre o tratamento de dados. Além de todas as variáveis passarem pelo crivo do manual de estilo da BD, uma metodologia sofisticada de tratamento e limpeza de dados, alguns outros aspectos também foram adaptados. O método de quebra de linha da Câmara, por exemplo, não era bem lido em outras ferramentas — isso foi modificado no processo de tratamento próprio da BD, via Python.
Além disso, grande parte das tabelas são tratadas via DBT (Data Build Tool), que é uma ferramenta para transformar dados em SQL (Structured Query Language). Isso é muito útil no nosso contexto do datalake, em que um grande volume de dados é armazenado e processado. Com essa ferramenta, é possível fazer testes unitários para verificar aspectos do nível de observação da tabela, como a proporção de nulos, verificação do cruzamento de colunas identificadoras com a tabela de diretórios, enfim, tudo o que diz respeito à garantia da qualidade dos dados.
Compreendendo a cobertura temporal
Cada tabela disponibilizada pela Câmara tem uma cobertura temporal específica, resultado de como os dados foram sendo produzidos e tornados públicos ao longo do tempo. Trouxemos aqui uma linha do tempo dos dados para auxiliar no seu processo de pesquisa. Veja na imagem, por exemplo, que os dados de legislaturas remetem desde a criação da Câmara dos Deputados pela Constituição de 1826. Já os primeiros registros de despesas datam de 1959, antes mesmo da criação da atual Cota para o Exercício da Atividade Parlamentar (CEAP).
Chaves identificadoras
Os Dados Abertos da Câmara estão organizados como um banco de dados relacional. Isso quer dizer que, além de algumas características básicas, como a organização em tabelas com linhas e colunas, podemos estabelecer relacionamentos entre diferentes tabelas. Isso só é possível por conta das chaves identificadoras.
Chaves identificadoras podem ser primárias ou estrangeiras. Uma chave primária identifica unicamente cada registro na tabela. Chaves estrangeiras, por outro lado, podem ser uma ou mais colunas que fazem referência à chave primária de outra tabela
Cada proposição pode ter mais de uma tema, e por isso pode aparecer diversas vezes na tabela de proposições por ano de apresentação. Levando em consideração que as proposições têm formas de nomeação diferentes quando são debatidas na Câmara e no Senado, seria muito fácil confundir informações sobre o montante e relevância de trabalho feito em cada casa legislativa. Por isso, cada proposição tem um identificador único, o “idProposicao” (que funciona como uma chave primária). No nosso datalake ele é chamado de id_proposicao.
Agora, tomando a tabela de autores das proposições por ano de apresentação como exemplo, além do identificador único das proposições, ela tem também um identificador único dos(as) deputados(as) que apresentaram as proposições. Aqui, o “idDeputadoAutor” (id_deputado na BD) funciona como uma chave estrangeira se a conectamos à tabela de informações sobre os deputados. Isso pode ser válido se queremos acrescentar a informação de filiação partidária ou sexo do(a) deputado(a) proponente aos dados sobre as proposições. Os IDs garantem que vamos mesclar certinho cada parlamentar à sua proposição.
A seguir temos um mapa mental que mostra todas as conexões entre as chaves identificadoras no nosso datalake. Ele mostra as possibilidades de conexão entre as tabelas para facilitar a sua análise.
Dados de despesa através das legislaturas
Vamos agora a um exemplo prático utilizando o datalake público da BD e consultas SQL. Se precisar de ajuda para criar suas consultas, confira nosso tutorial de SQL sobre como acessar os dados da BD usando a linguagem.
A consulta abaixo nos permite comparar dados de despesa dos(as) deputados ao longo das últimas cinco legislaturas (de 2007 até o presente).
SELECT id_legislatura, categoria_despesa, ROUND(SUM(valor_liquido),1) AS despesa_total
FROM `basedosdados.br_camara_dados_abertos.despesa` desp
WHERE id_legislatura IN ('53', '54', '55', '56', '57')
GROUP BY id_legislatura
ORDER BY id_legislatura ASC;
A consulta gera a seguinte tabela. Vale lembrar que você pode exportar os resultados em um arquivo local (.csv, JASON ou para a área de transferência do seu computador) para explorar com com seu editor de planilha ou linguagem de programação preferida, ou ainda salvá-los em uma tabela do BigQuery ou Google Sheets, sem precisar fazer download da tabela.
Aqui conseguimos avaliar, por exemplo, o total de despesas pela cota para exercício da atividade parlamentar por tipo de despesa, ou seja, gastos com passagens aéreas, manutenção de escritório, alimentação, divulgação de atividade parlamentar etc. Utilizamos os dados da 53ª até a 57ª Legislatura, a atual.
Notamos que os gastos de divulgação da atividade parlamentar têm se destacado entre os parlamentares da legislatura atual, e por isso resolvemos investigar como esse tipo de despesa evoluiu ao longo do tempo como um todo. Com essa consulta, que poderia ser feita diretamente no ambiente do Google Cloud Console (tutorial aqui) ou através das nossas bibliotecas no Python ou R, conseguimos o seguinte resultado:
Vale mencionar que as despesas da legislatura atual são muito menores pois ela ainda não acabou. Além disso, parece que o palpite sobre a importância crescente deste tipo de gasto parece estar na direção certa. Para termos uma noção do quanto essa despesa tem ocupado uma parcela maior dos gastos de deeputados, podemos observar o mesmo recorte, mas com a proporção(%) que as divulgações ocupam no total gasto da Cota Parlamentar.
A análise e os gráficos foram feitos utilizando o pacote Python da BD.
Confira o notebook completo com o código utilizado para produzir as análises
Além disso, ainda poderíamos discriminar as despesas dos deputados segundo sexo. Para isso, podemos utilizar a consulta SQL a seguir.
SELECT sexo, id_legislatura, categoria_despesa, ROUND(SUM(valor_liquido),1) AS despesa_total
FROM `basedosdados.br_camara_dados_abertos.despesa` desp
INNER JOIN `basedosdados.br_camara_dados_abertos.deputado` dep
ON desp.id_deputado = dep.id_deputado
WHERE id_legislatura IN ('53', '54', '55', '56', '57')
GROUP BY sexo, id_legislatura, categoria_despesa
ORDER BY id_legislatura ASC;
Note como juntamos a tabela “deputado” à tabela de “despesa”. Isso é possível porque temos a coluna id_deputado em ambas as tabelas. Com o inner join juntamos apenas as informações correspondentes de ambas as tabelas
Agora deixamos com você. E aí, consegue identificar diferenças por sexo nas categorias de despesa dos parlamentares? Não deixe de compartilhar suas análises conosco!