Vinicius Gasparini
May 14, 2018 · 5 min read

Neste episódio da série “Estudo da Madruga” vamos desvendar o fascinante mundo do Hadoop e entender as ferramentas que fazem parte do seu ecossistema.


Eu poderia começar este post falando sobre o que é Big Data, como surgiu, o que come e onde vive, mas já existe muitos artigos na internet falando sobre isso e o objetivo aqui não é esse. O que você precisa saber é, geramos aproximadamente 2,5 quintilhões de bytes por dia. Como processamos essa quantidade absurda de dados de forma rápida e que gere valor para o negocio?

Essa é uma das perguntas que tiram o sono de muitos profissionais de TI, pois é um assunto que está em ascensão e, cada vez mais difícil achar profissionais qualificados que tenham experiência em projetos de Big Data.

Espero que no final deste post consiga passar um pouco da minha experiência para você. Certo? Então vamos começar!


http://hadoop.apache.org/

O que é o Hadoop?

Hadoop é um framework Open-Source que permite o processamento de grandes quantidades de dados de forma distribuída, utilizando clusters de computadores de baixo custo.

O framework é composto por quatro módulo principais, sendo eles:

  • Hadoop Common
  • Hadoop HDFS
  • Hadoop YARN
  • Hadoop MapReduce

Hadoop Common

Contém bibliotecas java e utilitários necessário para outro módulos. As bibliotecas possuem todos os arquivos e scripts para iniciar o Hadoop.

Hadoop Yarn

Framework para agendamento de tarefas e gerenciamento de recursos do cluster.

Hadoop HDFS

Sistema de arquivos distribuídos que fornece acesso aos dados com elevada taxa de transferência e tolerante a falhas.

Hadoop MapReduce

Framework para escrita de aplicativos que processem grande quantidades de dados em paralelo.


Ao longo do tempo algumas empresas que utilizam o Hadoop começaram a desenvolver outros componentes que se tornaram produtos do Apache Foundation e fazendo parte do seu ecossistema.

https://ambari.apache.org/

O Apache Ambari tem como objetivo tornar o gerenciamento do Hadoop mais simples, fazendo provisionamento e monitorando os clusters do Apache Hadoop. O Ambari oferece uma interface web, intuitiva e fácil de usar.

https://zookeeper.apache.org/

O Apache ZooKeeper é uma solução Open-Souce de alta performance, para coordenação de serviços em aplicações distribuídas. Ele faz o trabalho pesado coordenando e fazendo a gestão dos serviços dentro de um cluster, proporcionando assim um único ponto de acesso a esses serviços.

http://oozie.apache.org/

É um sistema de agendamento de workflow usado para gerenciar os Jobs dentro do ecossistema Hadoop. Permitem aos usuários definirem uma série de jobs escritos em diferentes linguagens, como Map-Recuce, Pig, e Hive possibilitando ligá-los um aos outros.
Oozie é tão versátil que pode ser usado para configurar e automatizar até o mais complicado workflow de processamento de dados.

https://hive.apache.org/

O Apache Hive é um Data Warehouse que funciona com o Hadoop e MapReduce. Este sistema de armazenamento facilita a agregação dos dados para relatórios e analises de grande quantidade de dados, utilizando a linguagem HiveQL(HQL). Podemos dizer que o Hive é um plugin que roda dentro de uma infra-estrutura Hadoop, pois ele precisa dos dados no HDFS e do MapReduce para processar esse dados. Permite conexões JDBC/ODBC e pode ser integrado com outras ferramentas como Microsoft Power BI, Tableau, entre outras.

http://sqoop.apache.org/

O Apache Sqoop é um projeto do ecossistema cuja a funcionalidade é exportar e importar dados dos bancos relacionais.
Basicamente ele permite mover dados de bancos tradicionais como Microsoft SQL ou Oracle para o Hadoop. É possivel importar tabelas individuais ou banco de dados inteiros para dentro do HDFS, ou determinar quais linhas e colunas serão importadas. Utiliza conexão JDBC e suporta importação incremental.

https://pig.apache.org/

O Apache Pig é uma ferramenta para analisar grandes conjuntos de dados, com essa ferramenta podemos realizar todas as operações de manipulação de dados no Hadoop. Utilizando uma linguagem própria de alto nível conhecida como Pig-Latin, esta linguagem oferece varios operadores que os programadores podem utilizar para criar suas funções de leitura, escrita e processamento de dados. O Pig tem dois componentes:

  • Pig Latin Scrit Language: Linguagem procedural que contém as sintaxe e comando para implementar a lógica de negócio
  • Runtime Engine: Compilador que valida e produz sequências de programas MapReduce, utilizando o HDFS para armazenar e buscar dados.
https://hbase.apache.org/

O Apache Hbase é um banco de dados do tipo noSQL orientado a coluna e foi construído sobre o sistema de arquivos do Hadoop o HDFS. O Hbase é o banco de dados oficial do Hadoop, fazendo parte do seu ecossistema oferecendo em tempo real acesso de leitura e gravação aos dados do HDFS.

https://flume.apache.org/

O Apache Flume é um serviço que permite coletar, agregar e mover grandes quantidade de dados em um ambiente distribuído de forma eficiente. Possui uma arquitetura simples baseada em streaming de dados.
Podemos utilizar o Apache Flume para coletar dados de redes sociais como o Twiter, armazenar no Hbase ou Hdfs e aplicar algum algoritimos de machine learning com o Apache Mahout.

https://mahout.apache.org/

O Apache Mahout é um biblioteca Open-Source de algoritimo de aprendizado de máquina, escalável e com foco em clustering, clasificação e sistema de recomendação, ou seja, é dedicado ao Machine Learning. O Mahout permite a utilização dos principais algoritimos de clustering, teste de regressão e modelagem estatística e os implementa usando o MapReduce.


Finalizando

No próximo post vamos começar a instalar nosso servidor, onde vamos configurar o Apache Hadoop e processar alguns arquivos. O objetivo é que no final desta série, você tenha aprendido na prática e configurar do zero um ambiente de Big Data.

Vinicius Gasparini

Data Enginner & Also an aspiring learner of Data Science

Vinicius Gasparini

Written by

Data Engineer

Vinicius Gasparini

Data Enginner & Also an aspiring learner of Data Science

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade