Vamos falar de Hadoop

Osemar Xavier
DataFrens.sg
Published in
6 min readNov 21, 2019

UMA BREVE DESCRIÇÃO SOBRE O HADOOP

Um dos temas principais quando falamos de Big Data e processamento de dados sejam eles estruturados ou não estruturados. No meu MIT em Big Data, me pareceu algo super complexo, e realmente é, acreditem! Temos que partir do principio que o conceito de Big Data e Data Science são muito novos, o fato é que muitas empresas ainda não sabem utilizar a quantidade de dados que as pessoas estão produzindo, estamos num crescimento exponencial, um fenômeno, e para isso muitas empresas tem adotado o Hadoop e seu ecossistema para apoiar como uma solução para processarmos essa grande quantidade de dados, que cresce a cada segundo. O Hadoop surgiu em 2005 como uma solução open source para computação distribuída, projeto desenvolvido pela Apache Foundation, o projeto foi inspirado no MapReduce e no GoogleFS (GFS), como uma evolução do Apache Nutch. E acreditem, o elefantinho da logomarca, criado pelo Doug Cutting, foi inspirado no brinquedo de seu filho. Existem diversas distribuição do Hadoop, a que tive oportunidade de conhecer foi a Cloudera, que simplifica bem a tarefa de instalar e executar um sistema Hadoop, bem como oferece serviços de treinamento e suporte. Para quem quiser maiores detalhes, vou deixar o link aqui abaixo, vale a pena agregar esse conhecimento, uma vez que o mercado tem precisado cada vez mais de profissionais com esse nível de especialização.
https://www.cloudera.com/products/open-source/apache-hadoop.html

BENEFÍCIOS DO HADOOP

A plataforma de software do Hadoop é em Java e foi projetado para trabalhar com computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas, podendo executar a mesma tarefa em cluster diferentes. Outra vantagem é poder trabalhar com dados estruturados e dados não estruturados. O Hadoop é dividido em 4 módulos, conforme abaixo:

  • Hadoop Common — Esse módulo possui as bibliotecas e arquivos necessários para sua utilização em outros módulos;
  • Hadoop Distributed File System (HDFS) — É um sistema de arquivos distribuído do Hadoop, projetado para o armazenamento de arquivos grandes;
  • Hadoop Yarn — Esse módulo é dedicado a fazer o gerenciamento dos recursos operacionais em cluster, assim como o agendamento;
  • MapReduce — É um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído, geralmente em um cluster de computadores.

BAIXO CUSTO
Dispondo dessa estrutura, o Hadoop garante custo baixo, dentre outras vantagens. Podemos destacar uma observação quanto a essas vantagens, só compararmos as antigas estruturas de Data Centers que eram bem complexas, com custos altíssimos e exigiam cuidados em relação a temperatura, umidade e segurança, e toda a sua manutenção ficava a cargo do fornecedor. O Hadoop é um software de código aberto que roda em hardware comum.
ESCALABILIDADE E ALTO DESEMPENHO
Quando falamos de escalabilidade o Hadoop se destaca, o ganho quanto a isso é que uma tarefa complexa pode ser dividida em várias tarefas menores, além de possuir alto desempenho no processamento de dados diversos, sejam estruturados ou não. Podemos citar alguns: vídeos, imagens, logs, e-mails, dados sociais, dados de rede, etc.
SEGURANÇA
A diferença de uma estrutura de Data Center e a tecnologia de Cloud Computing é que antes, todas a responsabilidade ficavam a cargo da empresa e de seus fornecedores. As principais distribuições comerciais do Hadoop oferecem suporte, guias, assistência e melhores práticas.

ECOSSISTEMA HADOOP

O Hadoop é composto por outras ferramentas que auxiliam o tratamento dos dados, quando estamos trabalhando com a quantidade de dados na ordem de terabytes se faz necessário o uso de ferramentas que auxiliem nas diferentes necessidades que esses dados serão usados no negócio, aplicações e arquitetura de dados. Abaixo farei uma breve descrição das principais ferramentas utilizada no ecossistema Hadoop, de forma que ajude no entendimento quanto ao seu uso.

  • HADOOP DISTRIBUTED FILE SYSTEM: É o principal sistema de armazenamento de dados usados pelo Hadoop, sua principal característica é de ser altamente escalável. Os clusters HDFS são formados por dois tipos de nós, o nó máster denominado Name Node, e os múltiplos nós slaves denominados Data Nodes;
  • PIG: É uma ferramenta muito importante dentro do ecossistema Hadoop, seu principal objetivo é de facilitar o desenvolvimento, manipulação de dados e a realização de consultas em um ambiente de Big Data.
  • SQOOP: O Sqoop é uma ferramenta projetada para transferir dados entre o Hadoop e os bancos de dados relacionais.
  • HBASE: É o banco de dados desenvolvido para suportar grande quantidade de dados e tabelas extensas com muitos atributos e muitos dados armazenados, especialmente projetado para o Hadoop;
  • HIVE: O principal objetivo do Hive dentro do ecossistema Hadoop é facilitar a consulta e o gerenciamento de dados armazenados no HDFS de forma bem semelhante como é feito em SQL, chamado de Hql. O Hive fornece um mecanismo para projetar a estrutura nesses dados e consultá-los usando uma linguagem de forma mais amigável para o usuário;
  • APACHE MAHOUT: Trata de uma biblioteca de algorítimos utilizada dentro do Hadoop para aprendizado de máquinas, projetado para permitir que matemáticos, estatísticos e cientistas de dados implementem rapidamente seus próprios algoritmos;
  • OOZIE: A principal finalidade do OOZIE no Hadoop é de agendar tarefas. Suporta tarefas do Hadoop para Apache MapReduce, Apache Pig, Apache Hive, implementações em Java, Shell Script e Apache Sqoop;
  • SPARK: O Spark é uma solução de Big Data para processamento de grandes volumes de dados de forma paralela e distribuída. O Spark possui alguns componentes que cooperam na performance dele com tratamento de dados, dependendo da necessidade. Podemos citar o SPARK STREAMMING que é utilizado no processamento de fluxos de dados em tempo real, o GRAPHX que realiza processamento utilizando grafos, SPARKSQL, que utiliza SQL em consultas e processamento sobre dados, e MLIB, que é a biblioteca de aprendizado de máquinas para diversas aplicabilidades;
  • MAP REDUCE: É uma ferramenta capaz de processar grandes volumes de dados em paralelo em um conjunto de tarefas independentes, com agilidade e segurança;
  • IMPALA: É o principal mecanismo de consulta SQL de processamento paralelo em massa. Permite consulta dos dados armazenados diretamente no HDFS e no Apache HBase.

DISTRIBUIÇÕES HADOOP

O Hadoop já provou que veio para ficar como solução em Big Data, pensando nisso grandes empresas fazem a distribuição da solução. Tive oportunidade de usar o Hadoop distribuído pela Cloudera, que fornece suporte, treinamento e serviços profissionais, e no meu MIT tive a oportunidade de conhece a distribuição da Hortonworks Data Platform. Confira os principais fornecedores de distribuição Hadoop atuais do mercado, claro que cada um possui uma peculiaridade distinta, mas as aplicações são praticamente as mesmas.

CONCLUSÃO

Com o artifício de superar os desafios de Big Data, surge o Apache Hadoop, um framework para o processamento de grandes quantidades de dados, consegui desmistificar alguns conceitos, claro que bem basicamente. Quando falamos sobre engenharia de dados e Data Science, temos que saber que ainda temos muita coisa para evoluirmos, por ser um conceito ainda novo, todos esses princípios podem sofrer modificações a cada instante, assim como funciona a tecnologia em nossas vidas, sempre foi assim, tudo evoluí de forma muito rápida. Só para alinharmos nossas expectativas quanto a isso, gostaria de deixar bem claro, que no tratamento de dados não existe só o Hadoop como solução, temos outras tecnologias que podem ser utilizados de acordo com o projeto que você está trabalhando. Todas são fantásticas e necessitam de estudos quanto ao seu uso, na minha vida profissional tive oportunidade de usar SAS, Sales Force e Hadoop. Já na minha vida acadêmica, tive a oportunidade de explorar o Apache NIFI e o KNIME. Todas valem a experiência, e quanto mais experiência maior suas chances de resolver problemas do nosso dia-a-dia como analistas ou especialistas na resolução de problemas.

Originally published at http://oserxavier.com.br.

A Message from DataFrens…

Thanks for being a part of our community!

Do join us here at:

Read all our DataFrens articles here at:

--

--