โปรเจค DE ง่ายๆ ผ่าน GCP (1)

3 min readSep 22, 2021

วันนี้ผม จะลองมาเสนอ โปรเจคง่ายๆ ผ่าน GCP (Google Cloud Platform)

เมื่อพูดถึงโปรเจค DE(Data Engineer) คนส่วนมากบอกว่าคงจะยากแน่เลย (ส่วนตัวผมก็ว่ายาก 5555 ) แต่มันก็ไม่ได้มีอะไรยากอย่างที่คิด

https://github.com/shafiab/HashtagCashtag

หลังจาก ผม ได้ศึกษาคอร์ส R2DE ของ เพจ Data TH.com — Data Science ชิลชิล

Log In or Sign Up to View

See posts, photos and more on Facebook.

www.facebook.com

ผม ก็ได้มองภาพรวมพื้นฐานของคำว่า DE จากเริ่มต้น จนถึงสินสุดออกว่ามีอะไรบ้าง

สรุปใจความที่ผมได้คือ ทำให้ทุกอย่างทำงาน “อัตโนมัติ”

ในส่วนนี้ เราจะทำกระบวนการ ETL และ สร้าง Pipeline เพื่อให้ข้อมูลสมมารถทำงานได้แบบอัตโนมัติ เลย

https://blog.datath.com/etl-%E0%B8%84%E0%B8%B7%E0%B8%AD%E0%B8%AD%E0%B8%B0%E0%B9%84%E0%B8%A3/

เรามาเริ่มกันเลยดีกว่า อย่างแรกคือ การหาข้อมูลที่เราจะเล่นก่อน เว็บที่มีข้อมูลที่มากมายก็คือ kaggle.com เป็นเว็บที่สามารถหาฐานข้อมูลได้มากมาย

Data ที่ผมเลือกคือ https://www.kaggle.com/faviovaz/bank-term-deposit

ที่เลือก data นี้เพราะว่า ข้อมูลไม่ได้ใหญ่มาก เหมาะแก่การทดลองในโปรเจค แรก

จากนั้น ก็ลองโหลดโปรเจคดูว่าเราสามารถเล่นอะไรได้บ้าง

เครื่องมือที่ผมใช้เพื่อลองแก้ไขตารางคือ Google Colab (เพราะสามารถรันได้ทีละบรรทัด)

สิ่งที่เราจะ import ในนี้มีง่ายๆ 2 อย่างครับ คือ

import os
import pandas as pd

ในนี้ผมจะใช้ Pandas มาช่วยในการ

Pandas คือ library สำหรับจัดการ dataframe ของภาษา Python ทำให้เราเล่นกับข้อมูลได้ง่ายขึ้น เหมาะมากสำหรับทำ Data Cleaning / Wrangling

หลักจากที่เราโหลดไฟล์จาก kaggle เราจะไฟล์ที่เป็น zip เมื่อเราแตก zip จะได้ไฟล์หนึ่งคือ bank_term_deposit.csv จากนั้นก็อัพขึ้น colab เพื่อทดลอง

(ในกรณีนี้ ไฟล์ไม่ได้อยู่ใน data base และมีขนาดเล็ก ทำได้ แต่ถ้าไฟล์มีขนาดใหญ่และอยู่ใน db เราจะใช้วิธีการดึก ตัวอย่างไฟล์ทดลองมาแล้วค่อยเอามาเล่นก่อน แล้วค่อย hook ในตอนทำ airflow )