Big Data: Um oceano de dados a ser descoberto

Mariana Ferreira
labmm4a
Published in
8 min readJul 1, 2021

Como otimizar pesquisas em grandes volumes de dados?

Resumo

Hoje em dia, o termo Big Data, também conhecido como o grande volume de dados estruturados e não estruturados, está frequentemente presente no mundo das tecnologias. A cada segundo são geradas enormes quantidades de dados pelos mais diversos dispositivos, como é o caso dos telemóveis ou das TVs, dos milhares de vídeos que são constantemente postados no Youtube, as inúmeras fotos publicadas no Instagram e Facebook e as interações com estas… Neste contexto uma das principais dificuldades encontradas é como organizar e otimizar todos estes dados de forma a permitir extrair informações relevantes.

O Big Data é essencial nas relações económicas e sociais, tendo também um papel fundamental em diversas áreas, desde negócios, ciência, etc , por exemplo, na forma que permite a empresas analisar os seus dados e utilizá-los na identificação de novas oportunidades, fornecendo insights sobre as tendências de mercado e o perfil dos consumidores levando a uma comunicação mais direcionada e tornando os investimentos mais seguros e produtivos. O Big Data incide sobretudo nos 7 Vs (volume, variedade, velocidade, valor, veracidade, volatilidade e visualização), que permitem atingir estes objetivos. Desta forma, existe todo um “oceano” de dados a descobrir pois todos os conteúdos que podemos encontrar podem ser aprofundados com maior clareza.

O que é o Big Data?

Ao falarmos em Big Data estamos a referir-nos ao grande volume de dados estruturados e não estruturados que são gerados a cada segundo. Nos últimos anos, a quantidade de dados produzidos tem aumentado de forma exponencial a um ritmo bastante acelerado. O principal objetivo desta área do conhecimento passa pelo tratamento, análise e consequente obtenção de informações a partir de conjuntos de dados demasiado extensos que dificilmente poderiam ser trabalhados pelos sistemas tradicionais. Estas informações podem surgir a partir do registo de clientes em aplicações e websites, análises de mercado, que permitem às empresas identificar hábitos e padrões dos seus utilizadores criando assim novas oportunidades, nas redes sociais, por exemplo, através da apresentação de anúncios que são resultado desta análise, entre outras fontes.

Os 7 Vs do Big Data

O Big Data incide sobretudo em três dimensões, correspondentes ao Volume, Velocidade e Variedade dos dados. Para além destas características, existem ainda outros ‘V’ que são frequentemente utilizados para explicar a natureza e implicações deste conceito, perfazendo um total de sete indicadores descritos na seguinte imagem:

  1. Volume: grandes quantidades de dados;
  2. Variedade: várias fontes e tipos de dados (estruturados, semi-estruturados e não estruturados);
  3. Velocidade: rapidez no acesso e processamento dos dados;
  4. Variabilidade: dados em constante atualização;
  5. Visualização: forma como os dados são apresentados para apoiar o processo de decisão;
  6. Veracidade: dados precisos e de confiança;
  7. Valor: obter informação a partir de grandes quantidades de dados.
Os 7 Vs do Big Data

Tipos e estruturação dos dados

Estruturas de dados

No processo de análise de dados é comum encontrarmos três diferentes tipos de estruturas:

· Dados Estruturados

Os dados estruturados são aqueles que apresentam um modelo pré-definido permitindo assim uma fácil leitura e análise dos mesmos. Este tipo de estruturação obedece habitualmente a um formato tabular (linhas e colunas) utilizado por exemplo pelas folhas de cálculo Excel ou bases de dados SQL.

· Dados Não Estruturados

Os dados não estruturados não possuem um modelo padronizado para leitura exigindo assim a intervenção humana, ou em alguns casos particulares via software, para que seja possível a análise e consequente obtenção de informações destes. Os dados não estruturados podem, por exemplo, ter origem através de redes sociais como o Facebook, Instagram ou Youtube, portais de notícias, entre outros, que por lidarem com dados dos mais variados formatos, desde vídeos, imagens, a textos e áudios, tornam o processo de tratamento dos mesmos complexo e demorado.

· Dados Semi-Estruturados

Os dados semi-estruturados embora não tenham uma estrutura organizada como os modelos de dados tradicionais apresentam algumas propriedades organizacionais como tags ou marcadores que permitem separar elementos semânticos e construir hierarquias de registos e campos dentro dos dados. Este tipo de estrutura auto-descritiva é habitualmente encontrado em ficheiros com formato JSON ou XML.

· Metadados

Embora num contexto isolado os metadados não sejam considerados uma estrutura específica de dados, estes surgem como um dos mais importantes elementos em soluções de Big Data. São descritos como sendo dados sobre dados e têm como principal objetivo fornecer informação adicional sobre um conjunto de dados.

Tipos de dados

De acordo com a origem e o conteúdo dos dados que contemplam o Big Data, estes podem ser categorizados em três diferentes tipos:

· Dados Sociais (social data)

Os dados sociais são provenientes da interação dos utilizadores com as redes sociais e podem incluir, metadados com a sua localização, linguagem, informação biográfica, pesquisas efetuadas, links partilhados, entre outros. Estes dados permitem aos mercados estudar e perceber os comportamentos dos seus consumidores e com isso adotar estratégias para aumentar a produtividade e vendas.

· Dados empresariais (enterprise data)

Os dados empresariais são aqueles partilhados pelos utilizadores de uma organização e podem ter como origem dados financeiros, recursos humanos ou transações. Devido à utilidade e confidencialidade geralmente associada a estes dados, as empresas atribuem especial foco na procura de soluções que garantam uma modelação eficaz e segura no que toca ao seu armazenamento.

· Data of things

Estes dados são gerados pela IoT (Internet of Things), a tecnologia que permite que vários dispositivos estejam permanentemente ligados à Internet e conectados entre si, de modo a executar tarefas e guardar informações resultando por isso na geração constante de grandes quantidades de dados. Exemplos de utilização destes dados são por exemplo os dispositivos inteligentes que estão presentes no nosso quotidiano como TVs, smartphones, ou aplicações como Google Maps, que permite obter informações de trânsito em tempo real.

Big Data: Tipos de Dados

Qual a importância da otimização do Big Data nos dias de hoje

Atualmente, estamos expostos a todo o tipo de tecnologia e o Big Data não é exceção. Quando pesquisamos algo na Internet, como por exemplo no Google ou no Facebook, quando compramos um CD na Amazon ou até mesmo quando assistimos a uma série na Netflix, passamos a ser utilizadores desta tecnologia.

Nos dias que correm as empresas utilizam todos este tipo de serviços e aplicações, para a manipulação dos grandes volumes de dados que os utilizadores fornecem e com isto tentam encontrar soluções para pô-las em prática a nível empresarial. Vejamos o caso de sucesso da Netflix, decerto que já cedemos à tentação de começar a ver uma série nova porque esta nos foi recomendada pela própria aplicação e com certeza já nos perguntamos depois de a assistirmos e termos gostado como é que eles sabiam que íamos gostar!? Isto acontece devido aos sistemas de recomendação baseados nos dados gerados que são gerados ao utilizarmos esta plataforma. Todos eles são obtidos através dos hábitos dos clientes, em gostos pessoais presentes nas escolhas que fazemos, tipos de filmes que vimos anteriormente e se foram vistos na sua totalidade ou não.

Com o desenvolvimento da Internet of Things (IoT) a quantidade de dados gerados é cada vez maior e por isso aumenta a possibilidade dos dados ficarem desorganizados e consequentemente criam conjuntos de dados, insights e dispositivos não confiáveis que acabam por prejudicar o consumidor. Por estes motivos é necessário analisar bem os dados e otimizá-los de forma consciente das oportunidades que estes podem criar mas como podemos perceber a complexidade desta tecnologia, a necessidade de obter valor o mais rápido possível e a luta para fornecer informações com rapidez são apenas alguns dos problemas que tornam a gestão do Big Data tão complexa. Existem por isso algumas boas práticas que devem ser adotadas para facilitar este processo, como por exemplo:

· Remover a latência no processamento;

· Explorar dados em tempo real;

· Analisar os dados antes de agir;

· Transformar dados em decisões;

· Utilizar as tecnologias mais recentes;

O futuro do Big Data

Como já vimos o Big Data chegou para ficar e, tendo em conta a constante evolução e aparição de novas tecnologias, cada vez é maior a quantidade de dados gerada. A partir da realidade atual é possível fazer algumas previsões de como irá evoluir o mercado do Big Data nos próximos anos.

Será por exemplo necessário ter ainda mais em consideração a administração dos dados por parte das empresas, pois quantos mais dados são gerados, maior é o risco de estes poderem ser utilizados indevidamente. A possibilidade de manipulação de eleições e disseminação de fake news, são outros dos perigos que podem vir associados a este crescimento levando ao controlo de massas de acordo com a motivação dos especialistas.

Também os avanços que se têm verificado na área da inteligência artificial poderão ajudar e acelerar significativamente os processos de decisão e atuação por parte das empresas.

Ainda assim, se adotarmos boas práticas na integração, gestão e análise do Big Data são muito mais as vantagens que podemos vir a beneficiar do que as desvantagens e por isso devemos tomar partido desta oportunidade para um melhor entendimento da nossa sociedade e civilização como um todo e com isso contribuir para uma evolução constante quer a nível empresarial como no nosso dia a dia.

Curiosidades

Algumas equipas de alta competição de diversos desportos utilizam o Big Data na performance dos atletas, com câmaras e outros dispositivos para conseguirem observar o desempenho dos atletas e assim analisar os seus dados para tomar decisões mais concretas, tentando melhorar o desempenho e corrigindo os erros, criando também estatísticas para os próximos jogos.

Empresas de tecnologia conhecidas mundialmente, como a Netflix e o Spotify utilizam o Big Data para definir as preferências dos seus utilizadores, e fornecer aos seus conteúdos mais individualizados como foi falado anteriormente.

As ferramentas de anúncios do Facebook e do Instagram são baseadas em Big Data, pois relacionam os dados dos utilizadores das redes sociais com as suas preferências de consumos e serviços.

Atualmente, cada pessoa no mundo cria o equivalente a 7 MB de dados a cada segundo. Só nos últimos dois anos foram gerados mais dados do que em toda a história da humanidade.

Referências:

https://www.oracle.com/pt/big-data/what-is-big-data/

https://bigdatapath.wordpress.com/2019/11/13/understanding-the-7-vs-of-big-data/

https://www.bigdataframework.org/data-types-structured-vs-unstructured-data/

https://www.talend.com/resources/5-ways-optimize-big-data/

https://www.smartdatacollective.com/future-big-data-predictions/

https://www.techopedia.com/definition/28048/enterprise-datahttps://www.smartdatacollective.com/future-big-data-predictions/

https://medium.com/xnewdata-portugal/avalie-as-aplica%C3%A7%C3%B5es-e-casos-de-sucesso-em-big-data-e79714325c18

https://medium.com/xnewdata-portugal/netflix-caso-de-sucesso-em-big-data-ee40d64a1b12

--

--