Sprint de Dados: Metodologia de Projetos de Dados — Parte 1: Motivação

Porque projetos de Dados não devem demorar meses nem nascerem fadados ao fracasso

Allan Sene
Dadosfera
5 min readNov 27, 2018

--

Projeto de Dados bilionário entregue com sucesso? (por David Kovalenko on Unsplash)

Se você trabalha na área de Dados, deve estar se acostumando a ouvir histórias de fracasso em projetos de Data Science. Principalmente em organizações que não perceberam que os processos de Ciência/Engenharia de Dados difere dos processos tradicionais, seja de Desenvolvimento de Software, seja de Gestão de Infra-Estrutura.

Não é que todo modelo que você vai construir vai validar sua hipótese ou performar bem nos dados que você já tem em mãos… O Método Científico, todos sabem muito bem, é de tentativa e erro, um aprendizado contínuo. Pra mim, o fracasso de um projeto de DS tem somente um impacto que o define como Fracasso:

A consequente perda da confiança de que Data Science -pior ainda, toda a cultura Data-Driven- é benéfico para a organização.

Mas, longe de nos basearmos só em histórias de nossos conhecidos, vamos aos dados.

Projetos de Dados falham muito!

Uma pesquisa da McKinsey mostra que, em alguns setores, somente 10% do valor de Analytics através dos Dados são extraídos. Em grande parte por causa de Silos de Dados e Ceticismo do impacto que iniciativas de Data Science & Engineering podem trazer à empresa.

Grande parte dos dados ainda estão com o valor oculto por falta de práticas de Data Science

Privacidade ZERO!

Ainda em Maio de 2018, 2 anos após a aprovação da GDPR, nenhuma empresa se considera pronta para auditoria sobre proteção de dados, mesmo após grandes investimentos para se adequarem às regulações sobre privacidade se adequarem à nuvem.

Lentidão e altos custos!

Projetos de Data Science levam, em média, 4 meses para serem construídos (em fase de Prova de Conceito) sem nenhuma garantia de sucesso. Encurtando o prazo para até 2 semanas para levantamento, desenvolvimento e validação da idéia, há maior aprovação dos stakeholders e consequente patrocínio para avanço do projeto.

Como contornar este problema?

Um dos caminhos sempre é mais curto e te leva ao mesmo destino (Caleb Jones on Unsplash)

Metodologias tradicionais, como CRISP-DM, são muito complexas e exigem perfis muito especialistas para se aplicar. Já o Scrum e o XP do desenvolvimento, não levam em conta particularidades dos projetos de dados, como os perfis envolvidos, as diferentes fases de experimentação e modelagem.

Por que não criar uma metodologia nova, aberta, evolutiva e adaptável à realidade atual do mundo dos dados?

Nós do Data Sprints, resolvemos dar o primeiro passo! Aqui embaixo, detalhamos os Pilares da Sprint de Dados, metodologia que criamos e estamos aperfeiçoando a partir dos projetos que executamos em diversas empresas, do corporativo às startups.

Agilidade:

Baseado no Design Sprint do Google, desenvolvemos uma metodologia concisa e aplicável na realidade da sua empresa, independente do setor de atuação.

Mas o que tem a ver Design Sprint?

Trazemos do livro Sprint práticas que agilizam a Ideação, Prototipação e Testes de projeto de Ciência de Dados e Engenharia, como por exemplo:

  • Matriz de Viabilidade/Impacto
  • Os Crazy Eights:

Know-how:

Reunimos ferramentas e frameworks utilizados pelas maiores empresas do mundo, sem esquecer da teoria das universidades.

  • Indicadores de Democratização de Dados
  • Indicadores de Qualidade dos Dados
Sob cada um dos pilares, indicadores táticos e operacionais.

Autoridade:

Os perfis traçados na metodologia têm a medida necessária pra se implementar e avaliar qualquer projeto de Engenharia e Ciência de Dados. Tais perfis foram levantados por meio da análise da comunidade de profissionais de dados e dentro do processo de estruturação de times de dados dentro de Startups que trabalhamos.

Diagrama de Habilidades torna mais fácil a montagem de times de Dados.

Foco:

Por 2 semanas, nada é mais prioridade para a equipe do que a construção e validação das hipóteses de projeto levantadas.

  • Métricas de projeto

As métricas de sucesso do projeto são levantadas logo no princípio do Sprint. Utilizando-se da Matriz de Viabilidade/Impacto, por meio de uma estratégia Low-hanging fruit, escolhe-se o projeto a ser executado que consegue entregar o maior valor (na métrica de sucesso escolhida) com o menor esforço.

  • Acuracia vs Eficácia

A partir das métricas, os modelos produzidos são avaliados pragmaticamente. Nada de ficar 2 meses tunando o modelo para ter ganho de 0.001%. Modelos simples e mais transparentes (que são explicados de forma intuitiva) são preferidos, já que desta forma a manutenção e evolução é mais tranquila e stakeholders do projeto conseguem ter uma visualização mais fácil na hora da aprovação.

Mas isso não é nada!

Exatamente! Qual a ligação dos frameworks e dispositivos? Quais etapas são as do processo? Quais indicadores e métricas são usadas para acompanhar os projetos mais comuns de Data Science & Engineering?

Estes e outros recursos, criados em vários projetos de dados que nós atuamos nos últimos anos, estão sendo compilados no sprintdedados.com.br e vamos liberá-los gratuitamente. Em breve abriremos o processo de contribuição (talvez no github) e convidamos todos a contribuir!

Uma coisa é clara: os grandes players do mercado ainda não se atinaram pras verdadeiras necessidades de quem está realmente colocando a mão na massa em Data Science. A comunidade, como sempre precisa se unir e mudar isso!

Somente com abertura e contribuição vamos caminhar mais rápido no caminho da maturidade da cultura data-driven, nos distanciando cada vez mais do hype e fazendo deste domínio, Data Science, uma base sólida para organizações mais eficientes e mais justas.

Se curtiu, curta e compartilhe! Se não, comente aí! Fique ligado no nosso blog e nossa news para novidades. Abraços e até a próxima!

--

--

Allan Sene
Dadosfera

CTO | Lead Data Engineer | Co-Founder of Data Hackers and Dadosfera. Loves science, code and cats ^*^