O Caminho a ser traçado pela Operação Serenata de Amor

Felipe B Cabral
Data Science Brigade
4 min readNov 7, 2016

--

Seguindo a vontade de sermos 100% transparentes, o texto a seguir contêm o nosso planejamento:

Trabalhar com HDD

Ao contrário de desenvolvimento de software, onde podemos garantir que uma funcionalidade pode ou não ser criada, na ciência em geral isso não acontece. Podemos pesquisar uma ideia, coletar dados, limpar, para somente no fim descobrir que o que foi imaginado não funciona por qualquer motivo. Combinando nosso conhecimento de Agile com experimentação científica, chegamos à uma metodologia que une HDD com timeboxing.

HDD é um acrônimo para desenvolvimento baseado em hípoteses, ou hyphothesis-driven development. Seguindo esse método, como em um experimento científico, definimos hipóteses que são ideias de como resolver um problema. No nosso caso, cada hipótese possui um período fixo de tempo (timeboxing) para ser validada e novas são desenvolvidas a partir do resultado das anteriores.

As hipóteses para o início do trabalho

Quanto mais gente trabalhar nessas hipóteses, melhor. Mesmo que duas ou mais pessoas façam exatamente a mesma tarefa, sem conversar. Dessa forma conseguimos ter melhores resultados, considerando diferentes abordagens.

Distância/tempo entre gastos

1 semana do time de tecnologia

Cada nota fiscal da CEAP possui o endereço cadastrado no CNPJ e data do consumo.
Através do endereço é possível adquirir localização geográfica e com esses dados é possível calcular a diferença geográfica de tempo e distância entre os consumos.

Cientificamente falando nossa hipótese é: existem gastos (como refeições, por exemplo) feitos em diferentes locais e em curtos períodos de tempos, menos do que o necessário ou aceito para esse deslocamento.
Datasets utilizados:

  • API Google Maps
  • Receita Federal para endereços de empresas
  • Todas as notas da CEAP
  • Nomes dos parlamentares

Nepotismo

3 semanas do time de tecnologia

Fazer pagamentos a empresas onde o parlamentar é sócio, ou parente até terceiro grau é proibido na CEAP. Cada nota fiscal possui CNPJ e a partir desse dado é possível identificar os sócios da empresa. Através da lista de sócios é possível identificar se a empresa é do próprio parlamentar. Também é possível identificar se a empresa possui como sócio parentes em primeiro grau, usando dados da Câmara, TSE, dados abertos de cargos públicos, dados públicos do Facebook e de portais de notícias, por exemplo.

Cientificamente falando a hipótese é: existem gastos feitos em empresas cujos sócios são da família do parlamentar responsável pelo pedido de reembolso.

Machine Learning pode entrar na hora de identificar se um nome representa ou não um parente do deputado (considerando homônimos e abreviaturas, por exemplo).

Datasets utilizados:

  • Dataset de sócios de empresas (Receita Federal)
  • Câmara dos Deputados
  • TSE
  • Dados Abertos de cargos públicos
  • Wikipedia
  • Dados públicos no Facebook

Preços de refeições fora do padrão

2 semanas do time de tecnologia

A soma das notas públicas da CEAP são de mais de dois milhões de notas. Elas estão distribuídas por tipo de refeição, quantidade, local, etc. Esses atributos formam padrões, tornando visível os gastos fogem a esse padrão, como um gasto imoral ou adulteração da nota, por exemplo. Podemos usar Unsupervised Machine Learning para encontrar grupos de restaurantes e, quando formos analisar uma nota, responder usando Anomaly Detection se o valor está dentro do valor aceitável para a localização.

  • Dataset de preços em cada restaurante
  • Google Maps
  • Yelp
  • Foursquare
  • Todas as notas da CEAP
  • Receita Federal para endereços de empresas

Principais tarefas a serem executadas

Além desse núcleo de análise e machine learning, algumas outras tarefas estão em andamento:

  • Análise condicional
    A Lei da CEAP possui valores de teto para gastos, é possível analisar todas as notas e identificar quais delas ultrapassam o teto, dentro da sua categoria.
  • Jarbas
    Hoje o Jarbas apresenta as notas da CEAP com algumas informações, ele precisa ser alterado para que possa refletir o resultado das hipóteses e também um ranking de notas por índice de suspeita de corrupção.

Por que publicar todo o nosso planejamento?
Para sermos 100% transparentes. Além disso, existe um corpo de voluntários técnicos com cerca de 350 pessoas, de todo o mundo. Possibilitando que esse trabalho seja feito por mais pessoas, e mesmo que o mesmo trabalho seja feito por pessoas diferentes isso é positivo porque vamos conseguir melhores resultados através de múltiplas abordagens.

Essas hipóteses e tarefas não preenchem todos os 2 meses de trabalho. Mas serão nosso foco principal.
O tempo restante será utilizado para aperfeiçoar os resultados e para criar novas hipóteses com base nos aprendizados das primeiras semanas. Estamos trabalhando baseados em métodos ágeis e retornamos ao planejamento em novos ciclos. Tudo isso será público, nos moldes desse artigo e, como sempre, no GitHub: lá já criamos uma label (High Priority) para marcar quais Issues e Pull Requests estão relacionadas a esse nosso roadmap público, e também agrupamos tudo isso milestones.

Além dos dois meses

O valor arrecadado é superior a meta mínima: todo valor será utilizado para garantir dedicação de tempo exclusivo ao projeto. Assim que concluir a fase de produção de recompensas e cobrir gastos iniciais, teremos um valor exato que será publicado.
O Catarse pede 4 dias após a conclusão da campanha para aguardar o resultado de boletos de última hora.
Todas notas, gastos e transferências serão públicas.

E após o fim dos recursos do Catarse, possivelmente esse trabalho jamais irá acabar. Talvez não trabalhemos 100% dedicados ao projeto, mas o Robô estará funcionando, e irá ter melhoras contínuas.

Agradecimento especial a Digital Ocean
Que nos fornece servidores e suporte para que o Robô possa existir.

Abraços,
Operação Serenata de Amor

--

--