Cloud Hadoop 신규 기능 개선 — 스토리지 용량 설정 기능

MyeongSu Kim
NAVER CLOUD PLATFORM
5 min readJul 10, 2020

이번 시간에는 Cloud Hadoop에 개선된 기능을 소개합니다.

이전까지 네이버 클라우드 플랫폼 Cloud Hadoop은 서버에서 제공하는 기본 Storage 공간에 최소한의 HDFS만 지원하였고, Object Storage 를 데이터 스토리지로 하여 제공하고 있었습니다.

최근에는 Object Storage뿐만 아니라 한 노드당 최대 2000GB까지 블록 스토리지를 제공하여 HDFS를 필요로 하는 작업을 수행할 수 있습니다.

클러스터 초기 생성시 스토리지 용량 사이즈에 대한 고려를 해야 하며, HDFS 에 저장된 데이터의 안정성 확보를 위해 replication 수도 고려를 해야 합니다.

▶Cloud Hadoop 상품은 Hadoop, HBase, Spark, Hive, Presto 등의 오픈 소스 프레임워크를 손쉽게 구축할 수 있습니다.

※더욱 자세한 서비스 소개는 아래의 링크에서 확인 가능합니다!
Cloud Hadoop: https://www.ncloud.com/product/analytics/cloudHadoop

Cloud Hadoop 클러스터 생성

Console에서 Cloud Hadoop 상품에 접속하여 클러스터 생성을 클릭합니다.

클러스터 이름, 버전, Type 및 관리자 계정정보를 입력합니다.

이번 업데이트로 마스터 노드 스토리지 용량과 작업자 노드 스토리지 용량을 설정할 수 있게 추가 되었습니다.

작업자 노드 개수를 3개로 늘리고, 스토리지 용량을 1000GB로 늘립니다.

클러스터에 접속하기 위한 인증키를 선택합니다.

스토리지 및 서버 정보에 스토리지 용량이 추가 되었습니다. 최종 확인 후 생성을 클릭합니다.

생성 및 운영중 상태로 전환되는지 확인합니다.

Ambari 접속 및 DFS 사이즈 확인

클러스터 생성이 완료되면 Ambari에 접속합니다.

Ambari에 접속되면 좌측 HDFS 컴포넌트를 선택합니다.

전체 DFS 사이즈가 2.9TB 로 나옵니다. (데이터 노드 스토리지 각 1000GB 씩 3대)

작업자 노드 수 증가

클러스터 작업자 노드수를 3개에서 4개로 변경합니다.

노드 하나가 추가 되었으므로 스토리지 사이즈도 1000GB 증가하여 DFS 사이즈가 3.9TB로 표시 됩니다.

Replication factor

Object Storage가 아닌 HDFS를 저장소로 사용할 경우 replication factor도 고려를 해야 됩니다.

Cloud Hadoop은 replication factor가 Default 2로 설정되어 있습니다.

보다 안정적인 데이터 유지를 위해서 replication fator를 3 이상으로 설정하는게 좋습니다.

Ambari에서 Block replication을 3으로 설정하여 적용하거나 Hadoop FileSystemShell의 setrep 옵션을 사용하여 사용자 지정 path의 replication 을 변경 할 수 있습니다.

Hadoop FileSystemShell의 setrep 옵션

Ambari -HDFS Block replication 설정 변경

Ambari에서 HDFS 컴포넌트-> Configs -> Advanced -> General -> Block replication 값을 3으로 변경하고 저장한 뒤 재시작이 필요한 컴포넌트들을 재시작 합니다.

Block replication 설정을 3으로 변경 후 파일을 업로드하여 hadoop fs -ls 옵션으로 해당 파일을 조회해보면 3으로 표시 됩니다.

이번 기능 추가로 스토리지 용량 설정시 이후 추가하는 노드들도 동일한 스토리지 사이즈로 생성이 되기 때문에 초기 용량 산정에 대한 고려가 필요하며, HDFS replication 수 도 고려가 필요합니다.

이상으로 Cloud Hadoop에 최근 추가된 노드에 스토리지 용량 설정 부분을 확인해 보았습니다.

--

--