Relatório quinzenal da Operação Serenata de Amor — 002

Data Science Brigade
Data Science Brigade
5 min readDec 5, 2016

--

Nosso compromisso com a transparência com tudo que fizemos dentro do Serenata continua, e queremos contar mais um pouco pra você dos nossos avanços nos últimos quinze dias.

Você também pode ler o report dos primeiros quinze dias de projeto.

Conversas com a Câmara dos Deputados

Enquanto explorávamos os dados sobre a CEAP, encontramos alguns dados que nos fizeram levantar algumas perguntas para a Câmara dos Deputados. A resposta que tivemos deles nos fizeram ter alguns esclarecimentos sobre o dataset.

  • Qualquer reembolso com o número de reembolso em branco não foi executado (negado ou cancelado)
  • Esses reembolsos cancelados são inclusos no arquivo com os dados disponíveis para desenvolvedores, mas não aparecem no site da Câmara
  • É normal que um reembolso possa ter múltiplos números de reembolso (por exemplo, mesmo reembolso aparecendo mais de uma vez em nosso dataset, mas com o mesmo número) porque ele pode ser parcial
  • A Câmara admite que as entradas com reimbursement_number vazio pode levar a confusão e pretende em breve não inclui-las mais no XML divulgado

Além disso, nos últimos 15 dias, enviamos 15 solicitações a Câmara, entre denúncias de casos já encontrados pela Rosie e questionamentos sobre o uso da CEAP para que possamos aperfeiçoar nossos modelos preditivos. Das 15 solicitações, 3 foram respondidas (mais informações sobre abaixo).

Rosie

Rosie é o nosso robô que vai analisar as notas e nos dar uma porcentagem de chance daquele reembolso específico ser ilegal. Começamos a falar dela em nosso último report. Nos últimos 15 dias, começamos ensinando a ela o mais básico: identificar notas que ultrapassam os limites mensais não acumuláveis na CEAP.

Para que a Rosie identifique outros possíveis casos suspeitos, dependemos de hipóteses e análises prévias. Depois de uma análise com resultados satisfatórios, integramos o modelo na Rosie, que começa a apontar reembolsos que se encaixam nesse caso.

Com tudo que aprendeu até agora, a Rosie atualmente retorna 1065 casos de reembolsos suspeitos, num valor total de R$ 2.195.415,83. Esses casos dependem de uma investigação maior, e não podem ainda ser dados como ilegais.

Primeira hipótese validada: distância entre gastos de comida

Uma das hipóteses que conseguimos validar nos últimos 15 dias é sobre gastos com alimentação considerando a distância física entre as refeições. A Cota para Exercício de Atividade Parlamentar permite que gastos com comida sejam feitos apenas pelo parlamentar, excluindo convidados ou assistentes. Nossa primeira hipótese completa foi analisar os dados para encontrar dias onde refeições com uma distância considerável entre elas aconteceram. Deputado com muitas refeições em cidades distantes, em um período muito pequeno de tempo? Queríamos saber mais.

Você pode conferir a análise completa aqui.

Nela conseguimos retornar 703 reembolsos suspeitos, totalizando R$ 28.752,98. Essas 703 não necessariamente são ilegais, mas sim o alerta de casos que merecem um olhar mais de perto.

Dentro desses 703 reembolsos suspeitos, temos os seguintes casos:

  • Dias com muitos reembolsos/gastos. Mais de 8 reembolsos em um dia com refeições é suspeito
  • Dias com um número alto de alimentações sem uma viagem para explicá-los
  • Dias em que a distância viajada é tão grande que isso sozinho é suspeito

Segunda hipótese sendo trabalhada: deteção de gastos ilegais com comida

Com os dados de reembolso de refeições que temos, queremos identificar gastos que:

  • Tenham sido criados artificialmente (notas frias)
  • Gastos reais (gastos para terceiros)
  • Gastos caros demais

Para validar hipóteses em cima desses pontos, precisávamos de mais dados. Criamos scripts para coletar preço de refeições nos restaurantes frequentados pelos parlamentares no Yelp e no Foursquare. Já temos um novo dataset contendo esses valores e as análises estão em andamento. Com a análise finalizada, seguiremos o mesmo caminho da anterior: ensinar a Rosie a detectar automaticamente o que conseguimos detectar de forma manual.

Análises manuais sobre gastos com combustível e hotéis

Analisando de forma manual os dados sobre gasto de combustível com a CEAP, descobrimos que existem parlamentares que utilizam mensalmente o valor máximo disponibilizado pela lei: R$ 6.000,00. Em média, isso significa 30 tanques de combustível por mês.

Em nossa análise manual sobre gastos com hotéis, não encontramos casos suspeitos.

Planejamento do website para você explorar os dados da CEAP

Nos aproximando do final do segundo mês, começamos a construir o website onde você vai conseguir ver o julgamento da Rosie, nosso robô que dá a porcentagem de ilegalidade de cada uma das notas reembolsadas pela CEAP. Integrado ao Jarbas, queremos dar uma maneira de você conseguir ver de forma estruturada o gasto dos deputados.

Dê-me minha caneca! Entregue-me minha camiseta!

Então é Natal! E não consideramos isso no planejamento da entrega das recompensas. Por conta da demanda alta das empresas que escolhemos para produzir as canecas e camisetas, não vamos conseguir cumprir com a data de entrega que prometemos na campanha. As canecas terão sua produção iniciada até o fim de Janeiro, enquanto as camisetas já estão com os modelos de teste a caminho.

Financeiro

O extrato mensal dos valores que já foram repassados é esse:

Para acompanhar o projeto

Para saber mais sobre o que acontece no dia a dia do projeto, nos siga no Facebook. Se certifique também de nos seguir no Medium para não perder os próximos reports quinzenais.

Em nome de toda equipe da Operação Serenata de Amor, o nosso agradecimento enorme para todos que estão contribuindo e ajudando com o projeto.

--

--