O básico nunca sai de moda
O que é básico em Ciência de Dados? O que é fundamental e necessário saber independente do nível que você esteja na carreira?
O básico nunca sai de moda. Essa é uma frase bem conhecida que tem o seu valor por representar uma verdade atemporal sobre qualquer área do conhecimento. Aquilo que é básico, ou seja, os fundamentos de qualquer área são necessários não importa o avanço e a complexidade que esta área atinja no tempo.
Na ciência de dados não é diferente, frequentemente vemos uma nova tecnologia, um novo algoritmo de machine learning, sempre algo novo chegando no estado da arte e em meio à tanta inovação podemos perder de vista o que é básico. Neste artigo vamos mapear conceitos fundamentais pra quem almeja trabalhar com dados.
Dado x Informação x Conhecimento
Ciência de dados, como o próprio nome já diz, trabalha com dados. Mas o que é dado? Como podemos definir a matéria prima dessa ciência fascinante? Então vamos lá, de acordo com o livro Introdução à Ciência de Dados de Fernando Amaral podemos definir:
“Dados são fatos coletados e normalmente armazenados”. Ou seja, é o menor grão da informação e sozinho não tem representatividade.
“Informação é o dado analisado e com algum significado”. A informação é o agrupamento de dados de acordo com algum contexto específico.
“Conhecimento é a informação interpretada, entendida e aplicada para um fim”. O conhecimento por fim representa a utilidade da informação, é a informação em forma de ação.
Exemplos:
Pense no seguinte conjunto de dados:
- Chocolate ao leite Nestlê — R$ 3,00
- Chocolate ao leite Lacta — R$ 2,00
- Chocolate ao leite Garoto — R$ 2,50
- Chocolate branco Nestlê — R$ 3,00
- Chocolate branco Garoto — R$ 3,00
- Chocolate meio amargo Garoto— R$ 3,50
Olhando para o conjunto acima esses dados não representam muita coisa. Porém que tipo de agrupamento podemos fazer para gerar alguma informação?
Agrupando por tipo:
Chocolates ao leite — 3
Chocolates branco — 2
Chocolate meio amargo — 1
Agrupando por marca:
Chocolates Nestlê — 2
Chocolates Garoto — 3
Chocolates Lacta — 1
Agrupando por preço:
Chocolates de R$ 2,00–1
Chocolates de R$ 2,50–1
Chocolates de R$ 3,00–3
Chocolates de R$ 3,50–1
Quando agrupamos os dados por algum contexto específico (tipo, marca, preço) obtemos algumas informações interessantes que podem nos trazer alguns insights valiosos. Quanto maior o número de dados, maior a quantidade de informações possíveis. Aplicando essas informações geramos o conhecimento:
- Existe uma variedade maior de chocolates ao leite no mercado, o que possibilita um preço mais competitivo nas negociações com o fornecedor.
- Por outro lado, chocolates meio amargo não são tão fáceis de encontrar e podem ter um custo mais alto.
Ciclo da Informação Inteligente
Definidos esses conceitos, podemos trabalhar cada um deles de forma inteligente para alcançar um maior resultado na tomada de decisão que é o objetivo final da ciência de dados. Para esse ciclo temos:
Planejamento — A primeira e mais importante fase deste ciclo é o planejamento, nessa fase há a identificação do problema a ser resolvido, qual o resultado a ser alcançado e quais os dados serão necessários para obter esse resultado.
Coleta dos dados — Com o planejamento feito, e somente depois disso, é hora de começar a coletar os dados, fazer as verificações e limpezas devidas e armazenar estes dados de forma organizada.
Gerar informação — Com os dados tratados e organizados, podemos começar a gerar informação. Realizar análises exploratórias para reconhecer como os dados estão distribuídos e identificar o que os dados realmente dizem.
Prover conhecimento — Com as informações extraídas dos dados podemos gerar o conhecimento para apoiar as decisões. Expomos as informações às hipóteses criadas e validamos esse conhecimento.
Tomada de Decisão — Com o conhecimento validado temos mais segurança para tomar decisão de forma mais assertiva a fim de alcançar os resultados definidos no planejamento.
Ação — Decisões tomadas é hora de colocar em prática o que foi definido. Sem ação qualquer conhecimento gerado e decisão tomada se torna irrelevante.
Acompanhar o resultado — Para identificar se os resultados obtidos estão de acordo com o planejado é importante acompanhar o resultado e verificar se mudanças são necessárias, revisando o planejamento e todas as etapas anteriores.
Conclusão
Tendo estes conceitos claros podemos avançar aos mais complexos campos de atuação e tecnologias da ciência de dados pois temos os fundamentos bem sólidos.
Espero que este artigo tenha sido útil pra você e se quiser conhecer mais não deixe de conferir os outros artigos aqui do Dados de Cientista. Para acompanhar alguns projetos visite meu Github e me adicione ao linkedin.
Grande abraço 😉