Data Science é metodologia, e não tecnologia

Assim como P&D (Pesquisa e Desenvolvimento), Data Science sofre com o desbalanço entre as ponderações dos termos. Em P&D, o Desenvolvimento tem um peso muito mais forte que Pesquisa. Em Data Science, o Data ganhou muito mais peso e dominou as falácias de corredores e Meetups. Porém não se engane: we're talking about Science, bitch!

A Ciência de Dados é constituída de princípios fundamentais que norteiam a extração de conhecimento a partir de dados (assim como Ciências Naturais — como Física e Química) extraem conhecimento de fenômenos naturais. Sendo assim, data mining, machine learning e estatística são ferramentas usadas para a extração de conhecimento de um domínio de dados. De maneira mais franca, o que eu quero dizer é que existe Data Science sem Machine Learning e vice-versa, ou seja, um Cientista de Dados não é necessariamente um Engenheiro de Machine Learning e vice-versa.

Entretanto, como este é um termo do mundo dos negócios, a Ciência de Dados trouxe também a responsabilidade de automatizar e sistematizar tal extração de conhecimento para tomadas de decisão, de forma a substituir o modelo tradicional de um time de analistas olhando para dados e opiniões para extrair algum conhecimento. Atualmente existem dois cenários macro de aplicações de tomadas de decisão orientada por dados, usando os princípios de Data Science: (1) as descobertas realizadas a partir de dados e (2) decisões repetitivas e em grande escala. O caso (1) está mais próximo do que hoje é chamado de Advanced Analytics, onde a empresa adquiri novas informações apenas "olhando" para os dados. Grandes exemplos deste formato estão no Walmart, como o caso do furacão Frances e as associações de compra entre fraldas e cervejas e a mudança da disposição dos produtos em suas lojas físicas. Já o caso (2) pode ser representando pelos sistemas de recomendação, onde a própria aplicação decide automaticamente quais produtos deve exibir para o usuário.

Este ponto de vista metodológico de Data Science ajuda na sua desambiguação de Big Data e Data Engineering. Estes últimos são áreas complementares que viabilizam o uso de dados para aprendizado e decisões, porém não fazem parte necessariamente do processo de aprendizado e decisões. Ocasionalmente, tecnologias e técnicas de big data e data engineering são utilizadas na implementação de exploração e mineração de dados. Eu vejo um jeito simples de separar os conceitos: as respostas da pergunta "o que eu preciso fazer para ser capaz de acessar e processar todos os meus dados?" são iniciativas de big data e data engineering. Já as respostas de "o que eu consigo aprender ou fazer melhor a partir dos meus dados?" se enquadram no contexto de data science.

Esta mescla técnica entre engenharia e ciência existe em todos os contextos. Um cientista da computação precisa saber programar, um físico precisa saber construir experimentos, assim como um químico precisa saber como operar instrumentos e equipamentos de um laboratório. Dessa forma, um cientista de dados precisa saber técnicas de manuseio de dados para realizar o seu trabalho, seja construindo aplicações para cenários particulares ou utilizados ferramentas já prontas. Além disso, lembrando da responsabilidade "brinde" de sistematizar e automatizar suas tarefas, conhecimento de arquitetura de sistemas e produtos são muito úteis e bem-vindas (embora não seja requisitada por e para todos).

Já uma mescla que continua carente em dias atuais é a de gestores que compreendem de maneira clara o que é Data Science e como ela deve ser executada. Empresas cujos gestores não compreendem este assunto perdem tempo e dinheiro por decisões erradas, seja por recrutar as pessoas com perfil inadequado ou então por decisões erradas com base em projetos mal estruturados. Uma empresa que deseja ter sucesso aplicando esta metodologia deve tratar Data Science como um ativo estratégico, investindo de ponta a ponta (desde coleta de dados, passando por engenheiros e cientistas até chegar na camada de gestão). No final das contas, a implantação desta metodologia terá forte impacto nos processos e na cultura da empresa, que junto às pessoas formam a espinha dorsal de uma organização.


Este artigo foi inspirado em alguns insights obtidos com a leitura do livro Data Science for business (Foster Provost & Tom Fawcett).

Weslley S. Patrocinio

Written by

Passionate about data, technology, and innovation.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade