Um livro sobre dados, Capítulo 3: Data Science, Big Data e a importância dessas ciências
As ciências muitas vezes podem parecer tópicos de outro mundo, tão complicados de entender que são quase mágica, especialmente quando se trata da magia dos computadores e sua capacidade de permitir o acesso ao incrível e sombrio mundo da internet, porém, como a maioria das coisas na vida, basta um pouco de persistência e interesse para entender sua complexidade. Começando pelo básico, para que possamos construir uma base sólida, iniciaremos com conceitos de extrema importância para a computação e sua aplicação.
A ciência de dados
Sob um olhar mais amplo, a ciência de dados é um conjunto de ferramentas, princípios, que guiam a extração de conhecimento e informação de dados. Confuso? É, mas com um pouco de paciência podemos entender, especialmente pelo diagrama (imagem acima), que nada mais é do que a união de outras áreas já existentes, com uma aplicação mais prática. Por meio da computação, que otimiza os processos, é possível correlacionar um maior número de informações, que possibilitam prever, analisar, interpretar uma área escolhida, para isso é necessário que haja conhecimento prévio de matemática, que será a base do estudo. Apesar de abstrato, sua utilidade é, de certa forma, simples e de fácil compreensão, como exemplo, temos os anúncios que aparecem na sua tela por vários meses depois de você pesquisar o preço de um tênis ou de uma viagem. Através da extração de dados das suas preferências e pesquisas online, propagandas personalizadas são direcionados a você, facilitando — ou não — sua vida na hora de se decidir.
Apesar de assustador à primeira vista, sua importância vai muito além de influenciar suas preferências de consumo, sendo também usada para a tomada de decisões em âmbito empresarial e até mesmo pela gestão pública, que produz informações estratégicas para facilitar o processo de escolha.
Ademais, para a área de saúde, ser capaz de gerar modelos de previsões de comportamento de antígenos, cruzar informações de doenças já conhecidas com outras recentes é de extrema importância, e mesmo sendo possível que alguém o faça, em tempos como os de pandemia em que nos encontramos, a velocidade é fator determinante, o que torna um computador diversas vezes mais eficiente.
Big Data
Avançando mais um pouco, outro data nos é apresentado, este com uma compreensão um pouco mais simples, já que trata-se de um termo para se referir a um grande volume de dados, sendo o big data metodologias para capturar, armazenar e processar um volume de informações advindas de várias fontes .
Constituído em três camadas, a tecnologia é usada para capturar e armazenar a informação, parte feita pelos engenheiros de dados e da computação. Logo depois, ocorre a análise, através da estática ou de inteligências artificiais. Posteriormente, há a visualização de dados, através de softwares de visualização, como o Tableau, o Google Data Studio, Microsoft Power Bi e o QlikView, essas ferramentas ajudam na criação de relatórios com a análise do todo formado pelos dados, o que facilita sua compreensão.
Um dos grandes problemas das tecnologias atuais é o processamento de dados não estruturados, ou seja textos, som e principalmente imagens. E o que os qualificaria como estruturados ou não? Bom, a primeira categoria é composta por dados pensados antes de sua concepção, eles são armazenados de tal forma que não é possível inserir um outro tipo de dado entre aqueles já “estocados”, por exemplo, quando existem informações numéricas, não é possível colocar texto entre elas. Os bancos de dados que são organizados em linhas e colunas, são um exemplificador dessa estruturação rígida. Já o segundo, que são a grande maioria das informações compartilhadas por nós, possuem mais de um tipo de informação ao mesmo tempo. Para que seja possível analisar tais casos que o big data entra em ação, sendo determinado primeiramente sobre o armazenamento, ou seja, concebendo previamente sua estruturação, e posteriormente analisando-os e desenvolvendo modelos de visualização. Sendo assim, torna-se viável a conexão entre diversos tipos de conhecimentos, que tornam a tomada de decisão mais fácil, pois há uma base mais bem consolidada das informações necessárias.
Acima vimos o exemplo do uso da ciência de dados durante a pandemia pelo governo americano, para estimativa da quantidade de leitos necessários, com uma das maiores populações e territórios do mundo os EUA tem que arrecadar informações em diversos pontos de saúde espalhados em todo o seu território para realizar de maneira eficaz a avaliação da condição da pandemia de modo geral. Nesse momento é que o desenvolvimento da ciência de dados e do big data vem a calhar, já que as técnicas de armazenamento, análise e em especial apresentação dos dados, como ilustrado pela matéria da Exame, as informações foram colocadas em planilhas, contribuindo para o controle dos casos e do desenvolvimento da doença, evitando um possível colapso do sistema de saúde e uma crise generalizada que poderia ter ocasionado em ainda mais vítimas.
Concluiremos esta parte do estudo da ciência de dados com uma frase que resume muito bem o que vimos hoje: “Torture os dados, e eles confessarão qualquer coisa.” — Ronald Coase.
Gostou do conteúdo? Siga a Neuron Ds&AI para mais conteúdos, curiosidades e artigos sobre ciência de dados!
Referências
https://alfredbaudisch.medium.com/o-que-%C3%A9-ci%C3%AAncia-de-dados-data-science-7af5bdac101a
https://www.liebertpub.com/doi/full/10.1089/big.2013.1508
https://www.enap.gov.br/pt/servicos/pesquisa-e-inteligencia-de-dados/aplicacoes-em-ciencia-de-dados
https://dnc.group/blog/data-science/o-que-e-ciencia-de-dados/
https://repositorio.unesp.br/handle/11449/213821
https://www.totvs.com/blog/inovacoes/big-data/
https://blog.leucotron.com.br/visualizacao-de-dados/
https://www.digitalhouse.com/br/blog/diferenca-dados-estruturados-e-nao-estruturados/