Lưu trữ dữ liệu lớn với Google Cloud Storage.

Vũ Tuấn
Eway Engineering
Published in
2 min readMay 24, 2019

Khi nói đến lưu trữ dữ liệu lớn thì chúng ta thường nghĩ đến HDFS. Tuy nhiên việc cài đặt hệ thống này khá là khó đối với những bạn mới làm quen hoặc cũng tốn nhiều thời gian đối với cả những người giàu kinh nghiệm. Để giải quyết vấn đề này Google Cloud cung cấp giải pháp là Google Cloud Storage giúp cho việc lưu trữ dữ liệu lớn dễ dàng hơn.

Để bắt đầu mọi người có thể đăng ký tài khoản tại đây (với người dùng mới google sẽ cấp cho $300 credit để sử dụng thử dịch vụ). Sau đó truy cập dịch vụ storage ở menu.

Google Cloud Storage cung cấp ba cách thức để có thể truy cập: bằng giao diện web, dòng lệnh và API. Trong Google Cloud Storage chỉ có 2 thành phần ObjectsBuckets. Bucket là đơn vị lưu trữ lớn nhất chứa các Object.

Để sử dụng Cloud storage trước hết bạn vào ứng dụng Storage và tạo 1 bucket bằng dòng lệnh hoặc bằng giao diện:

gsutil mb -c regional -l asia-east-1 gs://gcp-dataproc-example

Ta có thể chọn các kiểu lưu trữ và vị trí. Có 4 kiểu lưu trữ: Multi-Regional (có thể truy cập từ bật cứ region nào), Regional (Chỉ truy cập ở cùng region), Nearline (Dữ liệu ít khi đọc) và Coldline (Dữ liệu lưu trữ lâu dài). Việc chọn các kiểu lưu trữ hoặc location tùy thuộc vào mục đích sử dụng để tối ưu chi phí.

Sau khi đã tạo bucket thì ta sẽ đẩy dữ liệu vào bằng cách copy dữ liệu vào bucket:

gsutil cp yoochoose-clicks.dat gs://gcp-dataproc-example/

(Dữ liệu lấy từ https://recsys.yoochoose.net/challenge.html)

Lúc này ta đã hoàn thành việc upload file lên storage và có thể xem qua giao diện dữ liệu đã có.

Dữ liệu lên storage

Mặc dù sử dụng tiện lợi tuy nhiên thì Google Cloud Storage vẫn có những hạn chế như việc truy cập dữ liệu thông qua mạng sẽ chậm hơn từ local hay objects sau khi được đưa lên không thể sửa. Tuy nhiên, đối với các startup và công ty nhỏ như Eway việc duy trì hệ thống HDFS khá phức tạp. Do đó, hiện tại Eway vẫn đang sử dụng Google Cloud Storage để lưu trữ dữ liệu và với lượng dữ liệu lên đến 100 TB dữ liệu mà performance tốt và hệ thống luôn ổn định.

--

--