Um livro sobre dados, Capítulo 3: Data Science, Big Data e a importância dessas ciências

Sabrina Oliveira
neurondsai
Published in
5 min readJul 13, 2022

As ciências muitas vezes podem parecer tópicos de outro mundo, tão complicados de entender que são quase mágica, especialmente quando se trata da magia dos computadores e sua capacidade de permitir o acesso ao incrível e sombrio mundo da internet, porém, como a maioria das coisas na vida, basta um pouco de persistência e interesse para entender sua complexidade. Começando pelo básico, para que possamos construir uma base sólida, iniciaremos com conceitos de extrema importância para a computação e sua aplicação.

A ciência de dados

Fonte: Baudisch (2016)

Sob um olhar mais amplo, a ciência de dados é um conjunto de ferramentas, princípios, que guiam a extração de conhecimento e informação de dados. Confuso? É, mas com um pouco de paciência podemos entender, especialmente pelo diagrama (imagem acima), que nada mais é do que a união de outras áreas já existentes, com uma aplicação mais prática. Por meio da computação, que otimiza os processos, é possível correlacionar um maior número de informações, que possibilitam prever, analisar, interpretar uma área escolhida, para isso é necessário que haja conhecimento prévio de matemática, que será a base do estudo. Apesar de abstrato, sua utilidade é, de certa forma, simples e de fácil compreensão, como exemplo, temos os anúncios que aparecem na sua tela por vários meses depois de você pesquisar o preço de um tênis ou de uma viagem. Através da extração de dados das suas preferências e pesquisas online, propagandas personalizadas são direcionados a você, facilitando — ou não — sua vida na hora de se decidir.

Apesar de assustador à primeira vista, sua importância vai muito além de influenciar suas preferências de consumo, sendo também usada para a tomada de decisões em âmbito empresarial e até mesmo pela gestão pública, que produz informações estratégicas para facilitar o processo de escolha.

Ademais, para a área de saúde, ser capaz de gerar modelos de previsões de comportamento de antígenos, cruzar informações de doenças já conhecidas com outras recentes é de extrema importância, e mesmo sendo possível que alguém o faça, em tempos como os de pandemia em que nos encontramos, a velocidade é fator determinante, o que torna um computador diversas vezes mais eficiente.

Fonte: https://exame.com/academy/qual-e-o-papel-da-ciencia-de-dados-na-pandemia/

Big Data

Avançando mais um pouco, outro data nos é apresentado, este com uma compreensão um pouco mais simples, já que trata-se de um termo para se referir a um grande volume de dados, sendo o big data metodologias para capturar, armazenar e processar um volume de informações advindas de várias fontes .

Constituído em três camadas, a tecnologia é usada para capturar e armazenar a informação, parte feita pelos engenheiros de dados e da computação. Logo depois, ocorre a análise, através da estática ou de inteligências artificiais. Posteriormente, há a visualização de dados, através de softwares de visualização, como o Tableau, o Google Data Studio, Microsoft Power Bi e o QlikView, essas ferramentas ajudam na criação de relatórios com a análise do todo formado pelos dados, o que facilita sua compreensão.

Um dos grandes problemas das tecnologias atuais é o processamento de dados não estruturados, ou seja textos, som e principalmente imagens. E o que os qualificaria como estruturados ou não? Bom, a primeira categoria é composta por dados pensados antes de sua concepção, eles são armazenados de tal forma que não é possível inserir um outro tipo de dado entre aqueles já “estocados”, por exemplo, quando existem informações numéricas, não é possível colocar texto entre elas. Os bancos de dados que são organizados em linhas e colunas, são um exemplificador dessa estruturação rígida. Já o segundo, que são a grande maioria das informações compartilhadas por nós, possuem mais de um tipo de informação ao mesmo tempo. Para que seja possível analisar tais casos que o big data entra em ação, sendo determinado primeiramente sobre o armazenamento, ou seja, concebendo previamente sua estruturação, e posteriormente analisando-os e desenvolvendo modelos de visualização. Sendo assim, torna-se viável a conexão entre diversos tipos de conhecimentos, que tornam a tomada de decisão mais fácil, pois há uma base mais bem consolidada das informações necessárias.

Imagem retirada de: https://www.lofrano.com.br/2228/como-o-big-data-analytics-pode-beneficiar-seu-negocio.htm

Acima vimos o exemplo do uso da ciência de dados durante a pandemia pelo governo americano, para estimativa da quantidade de leitos necessários, com uma das maiores populações e territórios do mundo os EUA tem que arrecadar informações em diversos pontos de saúde espalhados em todo o seu território para realizar de maneira eficaz a avaliação da condição da pandemia de modo geral. Nesse momento é que o desenvolvimento da ciência de dados e do big data vem a calhar, já que as técnicas de armazenamento, análise e em especial apresentação dos dados, como ilustrado pela matéria da Exame, as informações foram colocadas em planilhas, contribuindo para o controle dos casos e do desenvolvimento da doença, evitando um possível colapso do sistema de saúde e uma crise generalizada que poderia ter ocasionado em ainda mais vítimas.

Concluiremos esta parte do estudo da ciência de dados com uma frase que resume muito bem o que vimos hoje: “Torture os dados, e eles confessarão qualquer coisa.” — Ronald Coase.

Gostou do conteúdo? Siga a Neuron Ds&AI para mais conteúdos, curiosidades e artigos sobre ciência de dados!

Referências

https://alfredbaudisch.medium.com/o-que-%C3%A9-ci%C3%AAncia-de-dados-data-science-7af5bdac101a

https://www.liebertpub.com/doi/full/10.1089/big.2013.1508

https://www.enap.gov.br/pt/servicos/pesquisa-e-inteligencia-de-dados/aplicacoes-em-ciencia-de-dados

https://dnc.group/blog/data-science/o-que-e-ciencia-de-dados/

https://repositorio.unesp.br/handle/11449/213821

https://www.totvs.com/blog/inovacoes/big-data/

https://blog.leucotron.com.br/visualizacao-de-dados/

https://www.digitalhouse.com/br/blog/diferenca-dados-estruturados-e-nao-estruturados/

https://www.oracle.com/br/database/what-is-database/

--

--