Afinal, o que é Ciência de Dados?

Eli Gorniak
in data we trust
Published in
7 min readNov 17, 2020

Entenda de maneira clara e objetiva porque essa ciência está tão em alta e como ela está presente no seu dia.

Mapa de monitoramento dos casos de COVID-19 no mundo. Fonte: Johns Hopkins University & Medicine.

Você reconhece a figura acima? Ela é o dashboard (ou painel de visualização) criado pela Johns Hopkins University and Medicine (JHU), nos Estados Unidos, para compilar e monitorar os casos de Covid-19 no mundo todo.

Ele foi desenvolvido para permitir que qualquer pessoa tenha acesso aos dados da epidemia de qualquer país, de forma interativa e atualizada. Graças ao trabalho conjunto de diversas fontes de pesquisa e geoprocessamento, ele é uma importante ferramenta de divulgação do histórico e status da doença.

E como a figura acima nos ajuda a compreender o que é ciência de dados?

Para se chegar ao resultado que vemos no dashboard da JHU, uma equipe multidisciplinar tem trabalhado incansavelmente reunindo e organizando os dados de vários países e seus órgãos de saúde, analisando estes dados e extraindo as informações que possam ser lidas e compreendidas tanto pelo público comum (nós) como pelos profissionais que vão decidir as ações a serem tomadas.

Agora, vamos definir ciência de dados a partir das palavras destacadas no parágrafo acima:

A ciência de dados combina várias áreas de estudo [multidisciplinar] como estatística, matemática e programação, para coletar [reunir e organizar ] dados das mais diversas fontes (internet, celular, websites, planilhas, bancos de dados), processar [analisar] estes dados utilizando ferramentas de programação, e obter [extrair] valor dos dados e fazer previsões.

Com isso em mãos, empresas privadas e órgãos públicos podem estabelecer [decidir] tomadas de decisão estratégicas.

Essa é a sequência de ações que compõem o trabalho do profissional de dados, e é chamada de pipeline da ciência de dados, ou, o fluxo de tarefas para gerar modelos de machine learning, inteligência artificial e outros produtos finais, como veremos a seguir.

Estamos tão envolvidos nesse ambiente tecnológico que os termos relacionados à ciência de dados nunca mais sairão das nossas vidas. É um caminho sem volta! Quer ver?

Machine learning, inteligência artificial, big data e outros termos muito populares

Certamente você já viu essas palavras, então, vamos entender o significado de cada uma com exemplos práticos:

  • “Machine Learning”: é o ramo da ciência de dados onde os programas de computador utilizam dados para identificar padrões e tomar decisões com o mínimo de intervenção humana. A partir dos dados coletados pelo banco, por exemplo, um modelo matemático será gerado e utilizado para identificar possíveis fraudes no uso de cartões de crédito, alertando uma compra que não corresponde ao padrão de um cliente.
  • “Inteligência Artificial”: já ouviu falar no “carro autônomo” da Tesla? Como um automóvel consegue decidir sozinho se vai trocar de pista, reduzir a velocidade ou para no sinal vermelho? Aqui entra o conceito de inteligência artificial, uma tecnologia que permite que sistemas simulem uma inteligência similar à humana - para tomar decisões de forma autônoma, baseadas em padrões de enormes bancos de dados. No caso do Tesla, sensores e câmeras espalhados ao redor do carro monitoram os movimentos, são armazenados e alimentam os modelos matemáticos que decidem os futuros movimentos do veículo.
  • “Big Data”: segundo o site Statista.com, mais de 500 milhões de postagens são feitas diariamente no Instagram. Isso representa um oceano de dados sendo captados e processados diariamente. Agora imagine as transações bancárias, postagens e comentários no Facebook, Linkedin, Twitter, Tik Tok, transações comerciais, etc gerando dados a todo momento... Isso tudo é o Big Data, um conjunto da ordem de petabytes de dados para serem processados em tempo real e extrair informações valiosas, recomendações de compra, estratégias, etc.
  • “Processamento da linguagem natural”: já abriu um site e viu aparecer um campo dizendo “Olá, faça uma pergunta...”? Isso é uma chatbot, uma ferramenta programada para ler o que você escreve e te entender como se você estivesse conversando com uma pessoa real num callcenter. Mas quem está conversando com você é um programa de computador que recebeu padrões de linguagem como insights (verbos, sujeito, frases, etc) para então lhe devolver a resposta mais aproximada à sua pergunta. O processamento da linguagem natural é um dos campos da inteligência artificial.

A ciência de dados já está no seu dia e você ainda nem percebeu?

Photo by Micaela Parente on Unsplash

Lembra quando eu disse que a ciência de dados nunca mais vai sair das nossas vidas? Então, dá uma olhada nesses exemplos práticos:

  • Pesquisa no Google: por que o Google sempre traz novidades quando você busca uma notícia, um produto ou serviço? Porque ele utiliza recursos que processam rapidamente a imensa quantidade de dados que ele recebe de diversas fontes e te envia os resultados baseados em outras pesquisas que você já fez, o local onde você mora, os valores que você já comprou. Isso é fruto de um sistema de recomendação específico pra você!
  • Seu feed do Instagram e Facebook: já se perguntou porque você vê postagens de determinadas pessoas no seu feed de algumas pessoas e de outras não? Você tem 700 amigos no Facebook mas não vê histórias de todos eles, certo? Isso é resultado do algoritmo (códigos de programação) criado especialmente para você, que observa suas postagens, curtidas e comentários e cria um ”padrão para o seu perfil”, daí faz as recomendações baseadas nesse padrão. Não é você quem escolhe o que vai aparecer, é o algoritmo…
  • Recomendações de compra: quando você abre o site da Amazon, AliExpress, Magazine Luiza, Mercado Livre, você vê uma seleção de produtos e promoções recomendados a você. Isso se deve também aos cliques que você deu em determinados produtos, quanto tempo permaneceu analisando as informações, as compras que já realizou, os feedbacks que deu (retornou o produto? falou bem ou mal dele?). Tudo isso está armazenado no seu perfil e serve para novas recomendações. “Como a Amazon sabia que eu precisava exatamente disso?”
  • Recomendações de filmes: na próxima vez que você abrir o Netflix, Hulu, Amazon Prime, HBO ou receber um email deles, observe o estilo dos filmes que foram recomendados. Mais aventura? Mais terror ou suspense? Esse sistema de recomendação coleta os dados do seu histórico nas plataformas, como tipos de filmes, número de vezes assistido, os filmes que você começou a assistir e não terminou, etc, e assim traça seu perfil e faz as recomendações esperadas, de forma que você permaneça o maior tempo possível utilizando aquela plataforma, já que eles estão recomendando exatamente o que você gostaria de assistir. Espertos, não?!
  • Uber e Waze: você entra no carro, abre o aplicativo Waze e coloca o endereço X, aguarda uns segundos e ele traça a melhor rota para você chegar até lá. O Uber faz o mesmo quando você diz pra onde quer ir. Nesse momento, você está utilizando as mais poderosas tecnologias que envolvem geoprocessamento e assim que começa a se deslocar, essas informações são processadas em tempo real, atualizadas para te trazer a rota mais rápida, evitando acidentes, bloqueios, e até avisar que tem um radar (ops!) ali na frente.
  • Rastreamento de entregas: quando você compra algo da Amazon, fica ansioso esperando pela caixinha? Eu também! E saiba que a Amazon, UPS, Correios, etc, utilizam sistemas de geoprocessamento que são atualizados conforme o deslocamento do entregador e no exato momento que ele deixou a caixinha na sua caixa de correio.
  • Google, Alexa ou Siri: Se você já disse “Ok, Google”, ou “Alexa, acenda as luzes”, saiba que você consegue se comunicar com o aparelho porque ele está utilizando o processamento da linguagem natural (que definimos acima) para entender suas palavras e transformá-las em algoritmos e devolver sua solicitação.

Fantástico, não?!

E aí, a Ciência de dados é pra você?

A área de tecnologia é fascinante, mas calma! Antes de largar tudo e entrar de cabeça no mundo dos dados, analise se é pra você!

Photo by Valentin Salja on Unsplash

Eu não digo isso para desanimar ninguém mas para alertar que como qualquer outro campo de trabalho complexo, a área de ciência de dados requer um certo gosto por números, afinal, pertence às Exatas.

Mas você não precisa ser um ás em matemática pra iniciar na área, pois existem funções que demandam outras skills que não apenas estatística ou programação, como o Analista de Inteligência de Mercado (BI), que envolve mais o conhecimento de mercado e decisões estratégicas.

Caso queira conhecer as atuais funções relacionadas à área de ciência de dados, recomendo a leitura do artigo “Mapa Completo das Funções em Ciência de Dados”, da Data Science Academy, que detalha todas as funções e sua trilha de aprendizado.

Concluindo…

Photo by Andy Kelly on Unsplash

Alguns alarmistas dizem que a inteligência artificial vai substituir o trabalho humano… mas veja por esse lado: máquinas fazem exatamente o que foram programadas fazer. E quem as programa? Pessoas, programadores…

Claro que teremos uma mudança gigantesca em certas áreas, mas não é possível substituir o trabalho humano por completo. Cabe a nós enxergar e entender como a tecnologia está modificando nossa área de atuação e nos adequarmos à nova realidade.

O futuro será fantástico!

Caso tenha interesse em explorar os dados do COVID-19, a Johns Hopkins University disponibiliza os arquivos nesse link.

Gostou desse texto? Então, clique quantas vezes quiser no ícone de aplausos à esquerda (esse é o like do Medium) 😉.

Deixe sua opinião. Seu comentário é muito bem vindo!

Redes sociais: Twitter|Linkedin

--

--

Eli Gorniak
in data we trust

happy person | enthusiastic of technologies and very curious about everything | author of “in data we trust” and “another ordinary day” blogs | Minnesota-USA.