15 zeros à direita

Por: Carolina Albuquerque

É difícil pra mente humana imaginar o volume que representa um número -1, seguido de 15 zeros. No entanto, lidar com petabytes é o dia a dia de muitas empresas que vivem de coletar e/ou processar dados. Não é preciso nem ir tão longe pensando em gigantes como o Google para listar quem está nesse patamar. Aqui bem perto temos um banco de dados com informações diversas sobre a exploração e produção de Petróleo, mantido pela a ANP (Agência Nacional de Petróleo) há quinze anos, chegando aos 7 petabytes (informação de maio/2015 — divulgada em http://www.anp.gov.br/).

E é tão difícil imaginar essa quantidade de dados, quanto falar sobre big data sem mencionar os 3 Vs, que depois viraram 5: volume, velocidade e variedade; veracidade e valor. Não acho que vale a pena entrar aqui na descrição de cada um deles porque temos páginas e mais páginas sobre o assunto, com níveis de complexidade e aprofundamento para todos os gostos. Minha ideia é falar de big data, mas com uma abordagem um pouquinho diferente.

Falando de experiência pessoal, quando comecei a estudar sobre o assunto, volume, velocidade e variedade me levaram a acreditar que quando se fala de big data, está se falando necessariamente dos petabytes ou até de “módicos” terabytes de informação. Porém, é um outro tipo de problema que tem me chamado mais atenção e ele não está absolutamente relacionado aos 5 Vs, nem começa com a mesma letra :).

As situações que nos apresentam problemas de análises não escaláveis estão aí para acrescentar mais um tipo de desafio no pote dos que podem ser resolvidos com as tecnologias que surgiram sob o guarda-chuva do big data.

Explicando com um exemplo: imagina que você faz parte de uma associação de classe (a OAB ou o Conselho Medicina), vai se candidatar a dirigente nas próximas eleições e tem em suas mãos uma planilha com dados diversos sobre 1 milhão de associados. Se esta planilha foi bem alimentada, além de dados básicos como endereço, e-mail e telefone das pessoas, ela pode ter também outras dezenas de colunas com informações mais comportamentais, como religião, se tem animal de estimação, se pratica esportes; e ainda informações relacionadas à interação destes indivíduos com a associação, como há quanto tempo está filiado e em quem votou nas últimas eleições. Se você está na oposição, seria bem interessante, somente através desses dados, descobrir quem são seus possíveis eleitores, certo? Analisando os que votaram na oposição nas últimas eleições, a gente poderia até imaginar que as pessoas que fazem parte desse grupo tem em comum algo como tempo de associação ou idade. Mas e se a correlação entre essas pessoas é algo totalmente diferente, como o fato de praticarem algum esporte?

As situações que nos apresentam problemas de análises não escaláveis estão aí para acrescentar mais um tipo de desafio no pote dos que podem ser resolvidos com as tecnologias que surgiram sob o guarda-chuva do big data.

Em termos de volume, nossa planilha com um milhão de dados provavelmente não chega nem na casa dos gigabytes. Pensando nos outros dois principais Vs, também não é um desafio do ponto de vista de velocidade e apenas a variedade se encaixaria um pouco mais no problema. Porém, o mais legal é que estamos usando a tecnologia desenvolvida e/ou disseminada na era do big data para chegar a uma resposta que, de outra forma, seria obtida com muita transpiração e em muito tempo. E quando pensamos em algo que requer muita transpiração, imediatamente entendemos que não há escalabilidade, ou seja, não funciona colocarmos mais pessoas para analisar nossa base se ela tiver mais de 3 milhões de dados.

Problemas deste tipo, que envolvem análises não escaláveis, podem e devem estar aparecendo para diversas instituições hoje em dia. E, para mim, são um exemplo do que acho mais legal quando se fala de big data — o acesso a tecnologias do mundo dos gigantes para atender também as necessidades de empresas menores e de pessoas. Um outro exemplo dessas tecnologias que me vem imediatamente à memória é a computação em nuvem. Mas isso já é assunto para outro post.

O que achou deste post? Deixe aqui seus comentários e compartilhe com seus amigos. Se quiser receber mais conteúdo sobre marketing direto, big data, pesquisa e inteligência de mercado, siga nosso canal!

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.