As principais falhas em projetos de Ciência de Dados

Qualidade não está só na eficiência do modelo.

Thiago Farias
6 min readNov 6, 2022
Kafeole from Agde, France, CC BY 2.0 via Wikimedia Commons

Segundo pesquisa com profissionais de Ciência de Dados, os principais fatores para o sucesso de projetos são:

“(1) descrever precisamente as necessidades dos stakeholders, (2) comunicar os resultados para os usuários finais e (3) colaboração e coordenação de equipe.” (MARTINEZ; VILES; OLAIZOLA, 2021, p. 2317)

Óbvio demais? Já é feito? Mas o que fez então com que nossos projetos falhassem se aparentemente seguimos os fatores de sucesso?

Essa dor não é rara, pois em outra pesquisa sobre projetos de Ciência de Dados, de Ermakova et al. (2021), foi obtido que:

apenas 21% dos entrevistados disseram que mais 75% dos projetos em que trabalharam de fato entregaram valor real para o negócio.

Então cerca de 80% dos entrevistados tiveram mais de 25% dos projetos falhando em entregar valor ao stakeholder, ou seja, descartados.

Objetivo deste artigo

  • Identificar os principais motivos para falhas de projetos segundo as equipes de Ciência de Dados.

Era um perfeito projeto de Ciência de Dados

Há alguns meses venho estudando mais a fundo os desafios em projetos de Ciência de Dados e alguns processos recomendados. Esse interesse surgiu por causa de três incômodos principais:

  1. Monitorar as métricas de uso e sucesso e descobrir que aquele projeto legal, que o stakeholder estava ansioso, cujo modelo é bem adequado (mas sem overfitting*) e os dados foram cuidados de ponta a ponta, não está sendo usado pelo stakeholder. Para mim estava perfeito …
    * não resisti ao comentário, foi mal…
  2. Toda vez que estudava sobre projetos de Engenharia de Software e / ou Desenvolvimento Ágil, a impressão era que nada parecia encaixar com o que é preciso fazer em projetos de Ciência de Dados.
  3. Aquelas tarefas “simples” dentro do ciclo de vida de dados cuja entrega não encaixou na Sprint, mas também não foi entregue na seguinte, nem na terceira …

Outros dois artigos relacionados a este

Antes de prosseguir, um pedido 🙋‍♂️

Este texto é uma adaptação de excerto do meu trabalho de conclusão de curso em Engenharia de Software. Não quero deixar esse TCC na nuvem sem nem mesmo um robô web scraping para lê-lo, por isso estou compartilhando aqui com você! Obrigado por ler 💙.

Quais são as suas boas práticas para uma Ciência de Dados ágil? Ficaria contente com a sua resposta à Survey abaixo, que é parte do TCC, onde busco entender como equipes de Ciência de Dados fazem para entregar valor para clientes de forma ágil.

Já respondeu ou abriu a outra aba para responder depois? Vamos nessa! 💨

Quais são os motivos de falha de projetos de Ciência de Dados, então?

By Draceane — Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=115158397

Abaixo trago alguns dados e listas com as principais falhas e seus causadores segundo nossos colegas. Seus casos batem com os deles?

Martinez, Viles e Olaizola (2021) — Falhas e o gerenciamento de projetos

Do ponto de vista de falhas no gerenciamento de projeto de ciência de dados, os principais motivos de falha apontados pelos profissionais seriam segundo Martinez, Viles e Olaizola (2021, p. 2314, tradução do autor):

“baixo nível de maturidade de processo, objetivos de negócio incertos, definir expectativas adequadas, dificuldade em estabelecer prazo realístico de projetos, ênfase tendenciosa em desafios técnicos, entregar algo que é errado, projeto não usado pelos negócios”

No quadro da figura abaixo reproduzo o quadro em que os autores organizam os desafios conforme a categoria de gerenciamento: equipe, projeto e dados.

Quadro de principais desafios gerenciais em Ciência de Dados. Fonte: Martinez e Viles e Olaizola (2021, p. 2314, tradução nossa)

Ermakova et al. (2021) — Falhas, etapas e desafios

Com base em questionário feito com 112 respondentes, apenas 21% disseram que mais de 75% dos projetos de fato entregaram valor real para o negócio (ERMAKOVA et al., 2021).

Do ponto de vista de quais etapas mais impactaram quando um projeto falhou — de mais crítica a menos crítica — , as respostas mais frequentes foram, segundo Ermakova et al. (2021):

  • compreensão do negócio (38%);
  • compreensão das necessidades do usuário (29%);
  • compreensão dos dados (24%);
  • avaliação do impacto no negócio (22%);
  • implementação (15%);
  • análise de dados (12%);
  • e gerenciamento de projeto (12%).

Obs.: os respondentes poderiam selecionar mais de uma

Sobre os projetos que falharam, os respondentes também classificaram a relevância de alguns desafios nas falhas. Assim, houve a classificação de desafios como críticos e significativos (respectivamente, nos dados entre parênteses) e os mais relevantes são:

qualidade dos dados (34% e 29%), acesso aos dados (30% e 24%), orçamento / tempo (21% e 31%), resistência cultural (17% e 21%), falta de habilidades socioemocionais (16% e 24%), execução de projeto desestruturado (14% e 28%), comunicação com cliente (12% e 35%), transferência para o cliente (9% e 24%), falta de habilidades técnicas (11% e 21%) (ERMAKOVA et al., 2021, p. 5085, tradução do autor)

Varela e Domingues (2021) — Riscos similares identificados em Portugal

Ao avaliar os riscos envolvendo os projetos de ciência de dados em Portugal, Varela e Domingues (2021) identificaram 25 riscos como frequentes em sua pesquisa, por exemplo:

  • definição pobre de escopo do projeto (ex.: perguntas e objetivos equivocados);
  • falta de documentação acerca do funcionamento dos modelos ou como as informações foram obtidas;
  • problemas de comunicação, transparência e compreensão sobre o projeto;
  • pouca análise e validação dos dados de entrada e saída de modelos;
  • negligência ao planejamento de riscos;
  • estimativas de entrega mal definidas;
  • falhas no sistema de dados (migração, infraestrutura e incompatibilidades);
  • dados complexos e ausentes
  • qualidade dos dados
  • mau gerenciamento das expectativas do cliente
  • foco na performance do modelo ao invés da usabilidade

Conclusão

Em suma, é possível identificar que os projetos falharam não necessariamente porque o conjunto de dados era ruim ou inacessível, pois há projetos que falham por questões de processo ou mesmo pessoas. Tendemos a sempre olhar os dados no começo do projeto para avaliar a viabilidade, mas será que estamos fazendo as perguntas necessárias para o cliente?

Nesse sentido, chama atenção que nada adianta otimizar modelos se o objetivo do projeto está mal formulado, a regra de negócio não está clara, a proposta de valor do projeto não é explícita ou há desalinhamento de expectativas entre o cliente e a sua equipe.

Esse desalinhamento pode até ser algo fora do controle de todos, como em caso de mudanças nas empresas, fazendo com que o projeto perca sentido ou uso. Contudo, não podemos ser passivos, precisamos ativamente entrar em contato com stakeholders para garantir que faz sentido continuar o projeto no rumo que está ou se é necessário ajuste.

Comunicar, testar junto e enviar protótipos ao stakeholder são formas de minimizar riscos, garantir qualidade e o sucesso do cliente e do projeto.

Já imaginou ficar 3 meses em um projeto e só descobrir na entrega que ele não faz mais sentido? Imagino que já tenha passado por algo similar ou sabe de alguma história assim.

Antes de ir embora, podes me ajudar com esta Survey? 🔎

Suas respostas vão me ajudar a entender como equipes de Ciência de Dados podem entregar valor para clientes de forma ágil.

… ah, não menos importante, você me ajuda a concluir o curso 🎉

Referências

ERMAKOVA, T. et al. Beyond the Hype: Why Do Data-Driven Projects Fail?. University of Hawai’i at Manoa, 2021. Disponível em: http://hdl.handle.net/10125/71237

MARTINEZ, I.; VILES, E.; OLAIZOLA, I. G. A survey study of success factors in data science projects. 2021 IEEE International Conference on Big Data (Big Data).: IEEE, 2021a. p. 2313–2318. Disponível em: https://ieeexplore.ieee.org/document/9671588/

VARELA, C.; DOMINGUES, L. Risks of Data Science Projects — A Delphi Study. Procedia Computer Science. Elsevier B.V., 2021. p. 982–989. Disponível em: https://www.sciencedirect.com/science/article/pii/S1877050921023231

--

--

Thiago Farias

Entusiasta de interações criativas com o conhecimento. Hoje: Engenheiro de Software e Tio dos Dados. Ontem: Físico, Educador e empreendedor frustrado.