O que é Ciência de Dados e os 6 passos para adoção de uma cultura orientada a dados

Renata Galdino
12 min readSep 4, 2019

--

O que é Ciência de Dados?

Quais as características de uma empresa orientada a dados?

Quais os principais desafios para uma empresa que está adotando ou deseja adotar uma cultura orientada a dados?

Quais os principais passos para abordar um novo problema em Data Science?

Quais são as responsabilidades de um Cientista de Dados?

Definir o termo “Ciência de Dados” ou “Data Science” não é simples e não há uma definição universalmente aceita.

Entretanto, ao lidar com novos problemas de negócio, e antes mesmo de adotar técnicas de Machine Learning, Deep Learning ou qualquer outra metodologia de Inteligência Artificial, geralmente os Cientistas de Dados (ou Data Scientists) geralmente seguem os seguintes passos:

1 — Definição do Problema

2 — Coleta dos Dados

3 — Descrição dos Dados

4 — Preparação dos Dados

5 — Exploração dos Dados

6 — Visualização dos Dados

O que é ser uma empresa orientada a dados?

Para acelerar e melhorar o processo de tomada de decisão, as empresas que já possuem uma cultura orientada a dados dependem de grandes volumes de dados (Big data) e de ferramentas adequadas de Data Science, de forma que, ao executar uma análise preditiva, possam obter insights inteligentes e úteis.

Embora boa parte das empresas estejam adotando ou pensando em adotar modelos com base em Analytics, a maioria ainda não tem uma cultura orientada a dados. E certamente o problema não é a ausência de dados. Pelo contrário, nos últimos anos, o volume de informações vem crescendo consideravelmente.

De acordo com o relatório “Data Age 2025 — The Digitization of the World”, a esfera global de dados crescerá de 33 zettabytes em 2018 para 175 zettabytes até 2025. E quase 30% dos dados do mundo precisará de processamento em tempo real.

Não se tratando de falta de dados, o grande problema é a dificuldade de transformar os dados existentes em insights úteis ​​para melhor tomada de decisão. E essa dificuldade tem como causa a falta de mão de obra qualificada para analisar as informações e/ou existência de dados que não se relacionam internamente nas empresas.

Um ponto de partida para solucionar essa dificuldade é desenvolver um modelo de “alfabetização de dados com foco em Data Science”, de forma a garantir que os colaboradores tenham um nível relevante de conhecimento, não só dos dados e processos das empresas, como também das principais técnicas existentes para realizar tais análises.

Neste sentido, é fundamental que as empresas saibam como abordar um problema de negócio usando técnicas avançadas de análise de dados, processo também chamado de Data Analysis. E isso começa pelo entendimento de que tipos de perguntas a Ciência de Dados pode responder.

Então, o que é Ciência de Dados (ou Data Science)?

Definir o termo “Ciência de Dados” ou “Data Science” não é simples e não há uma definição universalmente aceita.

O termo Data Science ou Ciência de Dados possui as seguintes definições:

• Campo multidisciplinar que engloba conceitos de estatística, matemática, ciência da computação, aprendizado de máquina (Machine Learning) e conhecimento especializado para entender e extrair conhecimento ou insights de grandes volumes de dados.

• Método para descobrir padrões ocultos em dados brutos, sejam eles estruturados ou não.

• Processo no qual dados brutos são ordenados e organizados, para serem usados em métodos que ajudam a explicar o passado e prever o futuro.

Para isso, os Cientistas de Dados (Data Scientists) utilizam vários algoritmos, métodos matemáticos, estatísticos e princípios de Machine Learning (Aprendizado de Máquina).

Trata-se, desta forma, de um conceito com uma vasta abrangência em termos de definição completa, o que às vezes dificulta um pouco o seu uso.

De forma geral, Data Science é um conjunto amplo de ferramentas, algoritmos e princípios de matemática, dados, inteligência artificial e conhecimento especializado, projetados para extrair significado e descobrir padrões ocultos de dados brutos.

No domínio do mundo dos negócios, o papel de um cientista de dados é gerar inteligência de dados aplicável, de forma a maximizar o valor que podemos extrair das informações disponíveis.

Como pode-se ver na figura acima, um Cientista de Dados (ou Data Scientist) não faz apenas a análise exploratória para obter insights, mas também utiliza algoritmos avançados de Machine Learning (Aprendizado de Máquina) para identificar a ocorrência de um evento específico no futuro.

É importante ressaltar que o diagrama acima não quer dizer que todas as disciplinas devem estar concentradas em único profissional. Pelo contrário: muitas vezes, dependendo do objetivo, é necessário formar um time para que a empresa tenha domínio das técnicas requeridas.

Quais são as responsabilidades de um Cientista de Dados?

Entre as principais responsabilidades de um Cientista de Dados estão:

Como as empresas orientadas a dados já estão aplicando Data Science em negócios?

Nos últimos anos, várias empresas vêm utilizando técnicas de Data Science e Machine Learning para detectar perfis de compras, aumentar receita, veicular anúncios relevantes, entre outros.

Tal uso foi impulsionado principalmente pelo sucesso obtido por empresas como Google, Facebook, Airbnb, que modelaram sua estratégia comercial com base em dados.

Outros exemplos de aplicação de Data Science em Negócios (a lista não é exaustiva) podem ser vistos abaixo para Finanças, Saúde, Varejo e Seguros:

Para outros exemplos na área de saúde, veja outro artigo que escrevi no link abaixo:

Além do mencionado acima, outros setores/departamentos também já estão fazendo uso de análises avançadas de dados, conforme figura abaixo:

E que tipos de perguntas a Ciência de Dados pode responder?

Para essa resposta, é extremamente importante entender as ideias por trás das diferentes técnicas de Data Science para saber como e quando usá-las.

Pensar em questões, problemas a resolver e táticas antes de usar algoritmos e modelos fornece, não só uma melhor abordagem de ciência de dados, mas também ajuda a desenvolver uma visão de negócios mais ampla.

Da mesma forma, ter consciência de que a utilização de análises estatísticas avançadas, algoritmos superpotentes e tecnologias de última geração não resolverão magicamente todos os problemas das empresas já é o primeiro passo. Entretanto, usar tais ferramentas para ajudar na tomada de decisões com maior acurácia e na automação de trabalhos repetitivos é exatamente a escolha a ser feita para aproveitar ao máximo os dados da maneira mais eficiente possível e criar um diferencial competitivo com base em dados.

Desta maneira, Data Science não se trata de números e sim de fazer perguntas, elaborar explicações e testar hipóteses.

Algumas questões são levantadas quando usamos dados:

  • O que podemos aprender com esses dados?
  • Dado um problema, que tipo de dados precisamos para ajudar a resolvê-lo?
  • Com base em alguns dados, que problemas interessantes podem ser resolvidos?
  • Que ações tomar quando encontramos informações úteis com dados?
  • Qual melhor caminho para aprender os principais conceitos relacionados ao assunto?

Agora que identificamos os tipos de perguntas que podem ser respondidas com o uso de Data Science, podemos definir as etapas geralmente seguidas pelos cientistas de dados quando se depararam com um novo problema nesta área.

Os 6 passos para adoção de uma cultura orientada a dados

A adoção de uma cultura orientada a dados geralmente envolve as seguintes etapas:

Passo 1: Definição do Problema

Como já mencionado, Ciência de Dados não se trata de números e sim de fazer perguntas, elaborar explicações e testar hipóteses.

A definição do problema requer perguntas de alto nível para definição de escopo e suposições. Para isso, é necessário definir com precisão o problema a ser resolvido com dados. E este problema deve ser claro, objetivo e mensurável.

Aqui neste ponto, qualquer imprecisão na definição do problema a ser resolvido com dados pode gerar erros ou até impossibilitar qualquer análise válida.

Além disso, é fundamental que as soluções possíveis e esforços requeridos sejam viáveis e tenham impacto positivo na empresa para justificar o investimento em Ciência de Dados.

Nesta etapa é extremamente importante:

  • Transformar qualquer ambiguidade em um problema concreto e bem definido.
  • Estabelecer papéis, responsabilidades e dados necessários.
  • Identificar pontos que vão influenciar no trabalho a ser realizado: Prioridades, prazos e estratégia de negócio.
  • Ter conhecimento profundo de negócio.

Passo 2: Coleta dos Dados

A coleta de dados é a etapa que vem logo após a definição do problema a ser resolvido.

Nesta fase, os dados podem ser obtidos de bases de dados oriundas de dados corporativos, de fontes de dados públicas, dados acadêmicos, empresas de fontes de dados, por meio de Web Scraping/ Crawling.

Os dados apresentam-se em diferentes formatos, formas e tamanhos.

Entre os formatos com maior frequência, temos CSV, XML, JSON e SQL.

Nesta etapa é extremamente importante:

  • Identificar todas as fontes de dados, internas e/ou externas, para a modelagem.
  • Mapear dados disponíveis e sua utilidade.
  • Extrair dados usando os formatos mais utilizados e aceitos pelas ferramentas disponíveis (csv, json, xml etc.)
  • Atentar para o tratamento adicional requerido para dados não estruturados.

Dicas adicionais para quem está iniciando o aprendizado:

Para quem está iniciando o aprendizado em Data Science e Machine Learning é recomendável:

  • Buscar conjuntos de dados simples.
  • Um bom conjunto de dados para testar seu aprendizado não deve ter muitas linhas ou colunas, para facilitar o trabalho e a absorção do conhecimento.
  • Não esquecer a primeira etapa: Deve haver uma questão interessante, que será respondida com dados.

Passo 3: Descrição dos Dados

Nesta etapa, precisamos entender com que tipo de dados/atributos estamos lidando e a propriedade dos dados coletados para resolver nosso problema.

  • Dados numéricos: Tipo mais simples, utilizado e compreendido pela maioria dos algoritmos. Para lidar com dados numéricos, usamos técnicas como normalização, quantização, categorização, entre outros.
  • Dados de texto: São dados não estruturados, um dos tipos mais comuns. Requerem cuidados e tratamentos adicionais para transformação, entendimento e utilização.
  • Dados categóricos: Referem-se a categorias observadas (cor de cabelo, classe social, faixa etária etc.). Podem ser representados em números ou por texto.

Nesta etapa é extremamente importante:

  • Entender características e formato de cada variável.
  • Identificar variáveis que possivelmente não serão necessárias* na modelagem (Exemplo: Nome, CEP, ID de usuário).

*Variáveis não necessárias, dependendo do problema a ser resolvido.

Passo 4: Preparação de Dados

Também chamada de Pré-Processamento / Data Wrangling / Data Munging.

Esta etapa é requerida para preparar dados para modelagem e é uma das mais importantes do processo de ciência de dados.

É importante ressaltar que dificilmente os dados coletados estarão prontos para análise imediata.

Assim, a maior parte de seu tempo e esforço envolve a limpeza de dados e a engenharia de recursos (transformar dados brutos em atributos que melhor representem seus dados).

Independentemente de o cientista de dados receber dados coletados ou ter que realizar a coleta, os dados estarão em formato bruto, que precisarão ser convertidos em um formato mais compreensível e útil para processamento adicional.

Esta etapa consiste no processo de limpeza, transformação (normalizar, combinar), enriquecimento e estruturação de dados brutos para utilizá-los nas análises, modelagens, reportes, visualização e no resultado.

O processo de limpeza dos dados consiste em:

  • Excluir / manipular dados incorretos ou ausentes (missings), lidar com valores discrepantes (outliers) e outros aspectos.
  • Também engloba a padronização de nomes de colunas de atributos para torná-los mais legíveis, intuitivos e em conformidade com determinados padrões para todos os envolvidos.
  • A saída desse processo impacta diretamente todas as etapas posteriores, como exploração, resumo, visualização, análise e até o resultado.

Outra etapa comum no processo de preparação é a inclusão dos dados, que consiste em:

  • Tratar os valores ausentes (missings), que incluem:
  • Excluir os registros contendo dados ausentes ou
  • Preencher com valor médio, valor aleatório, vizinho mais próximo ou por interpolação.

Outras etapas que podem ser requeridas, de acordo com os dados, são:

  • Detecção de outliers (valores discrepantes).
  • Verificação de dados duplicados.
  • Manipulação de dados categóricos: conversão de variáveis categóricas em códigos/indicadores.
  • Normalização de dados numéricos: padronização do intervalo de valores dos atributos, requerido por alguns algoritmos de aprendizado de máquina, que utilizam métricas que podem afetar adversamente os cálculos ou influenciar os resultados.
  • Balanceamento de dados: quando uma determinada categoria possui número desigual de observações frente as demais, é requerido um processo de balanceamento para corrigir o problema.

Após esta etapa, espera-se que os dados estejam em um formato adequado e confiável para melhor tomada de decisão em menos tempo.

Assim, o ideal é que as bases, após o processo de preparação de dados, tenham as seguintes características:

*Exemplo: Data de Nascimento e Idade, CEP e Nome da Rua

** Ausência de registros duplicados ou mesmo indivíduo com nome escrito de formas diferentes.

*** Uso de chaves únicas para relacionamento entre bases.

Nesta etapa é extremamente importante:

  • Identificar erros de registro ou formato, dados faltantes, dados discrepantes.
  • Limpar, substituir e/ou filtrar registros com problemas.
  • Entender bem as ferramentas utilizadas (R, Python ou outra de sua escolha) e suas bibliotecas para facilitar a execução dos passos.

Passo 5: Exploração de Dados

Esta etapa refere-se ao processo de representar de forma compacta os dados (Exemplo: quantidade de eventos por mês, total vendido por ano, nota média por turma)

Nesta etapa é extremamente importante:

  • Segmentar, testar e plotar os dados de diferentes formas.
  • Avaliar correlação entre variáveis e seus efeitos.
  • Identificar padrões e extrair atributos (variáveis) significativos e não significativos.

Passo 6: Visualização de Dados

Trata-se do processo de representar visualmente as informações em formato de gráficos, dashboards, imagens, mapas de forma visualizar diferentes atributos para compartilhar resultados, melhorar entendimento e descobrir novos insights e padrões ocultos.

Nesta etapa é extremamente importante:

  • Avaliar gráficos e dashboards para verificar relação com problema proposto.
  • Identificar se os dados estão íntegros e consistentes para a próxima etapa, caso necessário (Ex: aplicação de algoritmos de Machine Learning).

Após estas etapas, o Cientista de Dados terá em suas mãos o poder de decidir qual objetivo deseja seguir com suas análises: Usar Data Science para explicar um comportamento que já ocorreu ou usar os dados para prever um comportamento futuro.

O uso de Data Science para explicar o passado geralmente é feito com técnicas de Business Intelligence (BI) e possui as seguintes características:

  • Trabalha com dados estruturados.
  • Se concentra no passado e no presente.
  • Executa análise exploratória de dados.
  • Descobre novos padrões usando ferramentas estatísticas e visualização por meio de painéis (dashboards).
  • Elabora KPIs e KRIs.
  • Ferramentas utilizadas: Pentaho, Qlikview, Qliksense, Microstrategy, SAS Business Intelligence, Dundas, TIBCO Spotfire, Microsoft Power BI, Tableau, Oracle BI.

O uso de Data Science para prever o futuro geralmente é feito com métodos estatísticos tradicionais ou com algoritmos de aprendizado de máquina (Machine Learning) e possui as seguintes características:

  • Utiliza métodos científicos e algoritmos para extrair conhecimento e insights de dados estruturados e não estruturados.
  • Identifica tendências em dados e realiza previsões.
  • Executa análise exploratória de dados.
  • Abordagem com estatística e aprendizado de máquina.
  • Ferramentas utilizadas: R, Python, Octave, Matlab, Julia, Spark ML, Weka, Scala, Google ML, Amazon ML, Azure ML.

Qualquer que seja a escolha do profissional, analisar o passado ou prever o futuro, é essencial a etapa de interpretar os resultados. E essa é uma das etapas mais importantes de um projeto de ciência de dados!

O que engloba a interpretação dos dados?

A interpretação dos dados refere-se à apresentação dos seus dados e fornece os resultados de uma maneira que responde às perguntas de negócios que você colocou no início do projeto, bem como aos insights exploráveis obtidos pela ciência de dados.

A coisa mais importante a considerar é verificar se o problema original foi realmente resolvido.

As 6 etapas acima descritas sobre como abordar um novo problema de ciência de dados têm como objetivo mostrar o modelo geral de solução que as empresas devem adotar para enfrentar com êxito os desafios de nossa atual era centrada em dados.

Eu até hoje não conheci empresas com problemas relacionados a falta de dados. Pelo contrário, a maioria encontra-se hoje em uma situação de excesso de informações, não havendo, porém, um uso eficiente dos dados para benefício da própria empresa.

Nos últimos anos, testemunhamos uma grande mudança no mundo dos negócios e as empresas já perceberam a importância dos dados como um poderoso ativo de diferencial competitivo.

À medida que as organizações lidam com o processo inevitável de transformação digital, o que engloba também a transformação cultural, tomadas de decisão mais inteligentes e mais bem informadas são realizadas com base em detalhes minuciosos de toda a estrutura de negócios e nas informações geradas.

Assim, os benefícios e possibilidades de ser uma empresa orientada a dados são bem aparentes: agilidade organizacional, melhor desempenho, promoção do crescimento dos negócios, desbloqueio de inúmeras possibilidades de inovação e identificação de novas oportunidades.

Embora esse processo seja um grande desafio para muitas empresas, ser orientado a dados não é mais uma opção. E certamente o retorno valerá o investimento.

Espero que vocês tenham gostado. Muito obrigada!

Gostou? Clique nos aplausos — eles vão de 1 a 50 — e deixe o seu comentário!❤

Siga nossas redes sociais:

Facebook, Instagram, Twitter, Youtube, Tumblr e Linkedin.

Veja nossos outros artigos em:

https://medium.com/@renatagaldino

--

--

Renata Galdino

Responsável pelo blog Seshat Analytics (www.seshatanalytics.com.br) com objetivo de promover o uso de técnicas avançadas de Data Science, Machine Learning e AI.