Big Data: Definição e Um Breve Histórico

StratioBD do Brasil
7 min readFeb 19, 2019

--

Por: Vinícius Miranda da Silva

Big Data é um termo que ronda muitas empresas há algum tempo e grande parte dessas empresas a conhecem superficialmente não conseguindo extrair todos os benefícios desse montante de dados porque não possuem conhecimento suficiente para tal. Para a maioria ainda cabe a questão, o que é Big Data? Nesse artigo traremos um explicação breve e histórica sobre o dimensionamento de grande volume de dados ou Big Data e nos artigos seguintes discutiremos tecnologias, processos e outros aspectos relacionados a esse tema e que impulsionaram outras áreas como Ciência de Dados e Inteligência Artificial.

A história de como os dados se tornaram grandes começa muitos anos antes do atual alvoroço em torno dos grandes volumes de dados, ou pelo termo Big Data lançado por volta de 2005 por Roger Magoulas da O’Reilly Media.

A evolução do Big Data inclui uma série de etapas preliminares para sua fundação, mas até hoje permanece o ponto de que Big Data é um termo relativo dependendo de quem está discutindo isso. O Big Data para uma das FANG (Facebook, Amazon, Netflix e Google) é muito diferente do Big Data para uma empresa de serviços financeiros de tamanho médio.

No entanto, se houver uma definição que melhor representa o termo Big Data seria a da pesquisa Big Data: A Survey na qual Big Data,

refere-se a um grande conjunto de dados gerados e armazenados com os quais os aplicativos de processamento de dados tradicionais ainda não conseguem lidar em um tempo tolerável”.

O seu surgimento está relacionado com o aumento exponencial de dados gerados e a seguir discutiremos o crescimento do termo Big Data em vários períodos.

Evolução do conceito de Big Data ao longo do tempo

O uso de Big Data e a necessidade de entender todos os recursos disponíveis já existem há muito mais tempo. Na verdade, os primeiros registros de uso de dados para rastrear e controlar empresas datam de 7.000 anos atrás, quando a contabilidade foi introduzida na Mesopotâmia para registrar o crescimento de colheitas e rebanhos.

Os princípios contábeis continuaram a melhorar e, em 1662, Graunt publicou Natural and Political Observations upon the Bills of Mortality, que lança as bases para a demografia e torna-se uma das obras pioneiras no estudo atuarial de mortalidade. Esta obra continha um rudimento de tábua de vida, obtida através de dados sobre enterros em Londres. Por causa de seu trabalho, Graunt pode ser considerado o pai da estatística. A partir daí, os princípios contábeis melhoraram, mas não aconteceu nada relevante até o século XX, onde inicia-se a era da informação.

Século 20 — A Era da Informação

O primeiro grande projeto de dados foi criado em 1937 e foi encomendado pela administração de Franklin D. Roosevelt nos EUA. Depois que a Lei de Seguridade Social tornou-se lei em 1937, o governo teve que acompanhar a contribuição de 26 milhões de americanos e mais de 3 milhões de empregadores. A IBM conseguiu o contrato para desenvolver uma máquina de leitura de cartões perfurados para este projeto massivo de escrituração contábil.

Em 1927, Fritz Pfleumer, um engenheiro austro-alemão, desenvolveu um meio de armazenar informações magneticamente em fita. Pfleumer havia inventado um método para colar faixas de metal em papéis de cigarro (para evitar que os lábios de um fumante fossem manchados pelos mortalhas disponíveis na época) e decidiu usar essa técnica para criar uma tira magnética, que poderia então ser usada para substituir a tecnologia de gravação de fios. Depois de experimentos com uma variedade de materiais, ele se estabeleceu em um papel muito fino, listrado com pó de óxido de ferro e revestido com verniz, para sua patente em 1928.

A primeira máquina de processamento de dados surgiu em 1943 e foi desenvolvida pelos britânicos para decifrar os códigos nazistas durante a Segunda Guerra Mundial. Esse dispositivo, chamado Colossus, procurava padrões em mensagens interceptadas a uma taxa de 5.000 caracteres por segundo. Reduzindo assim a tarefa de semanas para meras horas. Dois anos depois, em 1945, John Von Neumann publicou um artigo sobre o Computador Eletrônico Variável Discreto Eletrônico (EDVAC), a primeira discussão “documentada” sobre armazenamento de programas, e lançou as bases da arquitetura de computadores hoje.

Foto. EDVAC: Electronic Discrete Variable Automatic Computer

Em 1952, a National Security Agency (NSA) é criada e, dentro de 10 anos, contrata mais de 12.000 criptologistas. Eles são confrontados com a sobrecarga de informações durante a Guerra Fria, quando começam a coletar e processar automaticamente os sinais de inteligência.

Em 1965, o governo dos Estados Unidos decidiu construir o primeiro centro de dados para armazenar mais de 742 milhões de declarações fiscais e 175 milhões de conjuntos de impressões digitais, transferindo todos esses registros para a fita magnética do computador, que precisava ser armazenada em um único local. Mais tarde, o projeto saiu do temor de Big Brother, mas é geralmente aceito que esse foi o início da era do armazenamento eletrônico de dados.

Em 1989, o cientista de computação britânico Tim Berners-Lee inventou a World Wide Web. Ele queria facilitar o compartilhamento de informações através de um sistema de hipertexto. Pouco ele poderia saber no momento o impacto de sua invenção. A partir dos anos 90, a criação de dados é estimulada à medida que mais e mais dispositivos são conectados à Internet.

Século 21 — A era do Big Data

Dando continuidade na evolução da idéia de big data e observações relativas à explosão de dados ou informações a seguir estão alguns marcos, referentes ao século presente, na história do dimensionamento de volumes de dados.

Peter Lyman e Hal R. em outubro de 2000 na Varian na UC Berkeley publicam: “How Much Information?”. É o primeiro estudo abrangente de quantificar, em termos de armazenamento de computador, a quantidade total de informações novas e originais (sem contar cópias) criado no mundo anualmente e armazenados em quatro mídias físicas: papel, filme, óptico (CDs e DVDs) e magnético. O estudo concluiu que, em 1999, o mundo produziu cerca de 1,5 exabytes de informações exclusivas, ou cerca de 250 megabytes para cada homem, mulher e criança na Terra. Também constata que

“uma grande quantidade de informações únicas é criada e armazenada por indivíduos”

num evento chamado de democratização dos dados e que também é o que mais cresce. Lyman e Varian afirmam que

“até hoje, a maioria das informações textuais é ‘nascida digital’, e dentro de alguns anos isso também será verdade para imagens.”

Os mesmos pesquisadores descobriram que o mundo produziu cerca de 5 exabytes de novas informações em 2002 e que 92% das novas informações foram armazenadas em mídia magnética, principalmente em discos rígidos.

Doug Laney em fevereiro de 2001 , analista do Grupo Meta, publica uma nota de pesquisa intitulada “Gestão de dados 3D: Controlar o volume de dados, velocidade e variedade”. Uma década mais tarde, os “3 Vs” tornaram-se as três dimensões geralmente aceitas que definem big data, embora o termo em si não apareça e não esteja especificado na nota de Laney.

Em 2005, Roger Mougalas da O’Reilly Media cunhou o termo Big Data pela primeira vez, apenas um ano depois de criar o termo Web 2.0. Na época, referia-se a um grande conjunto de dados que é quase impossível de gerenciar e processar usando as ferramentas tradicionais de Business Intelligence. Nesse mesmo ano o Hadoop foi criado pelo Yahoo! construído sobre o MapReduce do Google. O objetivo era indexar toda a World Wide Web e, atualmente, o Hadoop de código aberto é usado por muitas organizações para processar grandes quantidades de dados.

À medida que mais redes sociais começam a aparecer e a Web 2.0 evolui, muito mais dados são criados diariamente. As startups inovadoras começam lentamente a se aprofundar nessa enorme quantidade de dados e os governos também começam a trabalhar em projetos de Big Data. Em 2009, o governo indiano decidiu fazer uma varredura da íris, uma impressão digital e uma fotografia de todos os 1,2 bilhões de habitantes. Todos esses dados são armazenados no maior banco de dados biométricos do mundo.

Em 2010, Eric Schmidt fala na conferência Techonomy em Lake Tahoe, na Califórnia, e ele afirma que:

“havia 5 exabytes de informações criadas pelo mundo inteiro entre o alvorecer da civilização e 2003. Agora essa mesma quantidade é criada a cada dois dias”.

Em 2011, o relatório da McKinsey sobre Big Data: a próxima fronteira para inovação, competição e produtividade, afirma que em 2018 os EUA enfrentariam uma escassez de 140.000–190.000 cientistas de dados, além de 1,5 milhão de gerenciadores de dados. Em 2018, a matéria Data Analyst, the most in-demand job of the coming years indica, de acordo com o Fórum Económico Mundial e a IBM, que a demanda anual para cientistas de dados, desenvolvedores e engenheiros de dados chegaria a 700.000 novos recrutamentos para 2020.

Os acontecimentos anteriores dos quais discutiu-se antes são fundamentais para a concepção moderna de Big Data. Porém existem outros fatores além dos marcos históricos como o desenvolvimento de computadores, telefones inteligentes, internet e equipamentos sensoriais (Internet of Things) para fornecimento de dados. As mídias sociais modificaram a natureza dos volumes de dados de maneiras novas e ainda segue em desenvolvimento. As diversas soluções do mercado financeiro (cartões de crédito, gateways de pagamento, etc) também tiveram um papel importante ao fornecer quantidades cada vez maiores de dados, e consequentemente a evolução da tecnologia moderna está entrelaçada com a evolução do Big Data.

Nos últimos anos, houve um aumento considerável nas startups de Big Data, todas tentando lidar com Big Data e ajudando as organizações a entender Big Data e cada vez mais as empresas estão lentamente adotando e avançando em direção ao Big Data. No entanto, embora pareça que o Big Data já existe há muito tempo, na verdade, o Big Data é tão grande quanto a Internet em 1993. Então, cabe um último questionamento, qual é a previsão futura acerca do dimensionamento de grandes quantidades de dados? Ao que parece a Era do Big Data está apenas começando.

Obrigado pela leitura. Caso tenha gostado, então siga-nos para as próximas histórias. Para mais conteúdos de Big Data, Data Science e IA visite o nosso blog: https://www.stratio.com/blog. Também não deixe de nos seguir nas nossas redes sociais para outras novidades:

LinkedIn — https://www.linkedin.com/company/stratiobd/.

Twitterhttps://twitter.com/stratiobd

Se quer saber mais sobre a Stratio, então, veja esse vídeo de 1 minuto: https://www.youtube.com/watch?v=YIU-Rq3ERW4

Vinicius Miranda da Silva é engenheiro de software na StratioBD do Brasil.

--

--

StratioBD do Brasil

A StratioBD é uma empresa de Big Data que acompanha as empresas em sua jornada através da transformação digital completa com um único produto.