Hadoop Architecture

Welly Tambunan
Data Engineering BootCamp
2 min readOct 19, 2018

sekarang kita balik lagi ke HDFS+MapReduce

architecture yang baru sekarang adalah HDFS + YARN .

HDFS utk storage

YARN utk manage processing nodes

di atas YARN ini bisa di jalankan MapReduce program

Spark juga bisa dijalankan di atas YARN

ini sekilas aja ya … klo belum ngerti gpp..

di HDFS itu ada beberapa component besar.. NameNode, DataNode

jadi setiap kali kita menulis file ke HDFS, kita akan tulis ke beberapa tempat/direplicate

jadi klo ada satu server yang down, ada beberapa replica yg masih hidup

ini menyebabkan architecture HDFS sangat reliable

yg berikut kita bahas adalah YARN

ada resource manager dan node manager

jadi klo ada program map reduce lagi jalan, dia akan dijalankan sebagai YARN application

jadi si YARN ini nanti yang akan bagi2 resource, memory, cpu storage dsb

kenapa hal ini menjadi sangat penting di ketahui ? karena nanti kalau ada terjadi masalah di production atau pas development, gampang nge trace nya

jalanin program spark.. trus lihat deh di YARN applications

--

--