การเดินทางของโร้ดดี้ที่มีความฝันอยากไปดาว DE (Data Engineer)

Witsarut Wongsim
Road to Data Engineer Student Blogs
4 min readOct 10, 2021

โร้ดดี้กระต่ายน้อยได้เดินทาง บนเส้นทาง Road to Data Engineer 2.0 ตามความฝันของเขาซึ่งกำลังหาวิธีไปดาว DE ดวงนั้น

โรดดี้เปิดแผนที่เพื่อดูเส้นทางที่ต้องผ่านด่านต่างๆว่าต้องเจอกับอะไรบ้างไปดูกันเลย

✔️ ปูพื้นฐาน การเขียน SQL และ Python (Bonus Video: ตะลุยโจทย์ สำหรับผู้ที่เริ่มหัดเขียน)
✔️ CH 0 พื้นฐานเกี่ยวกับงานของ Data Engineer
✔️ CH1 การดึงข้อมูลจากแหล่งข้อมูลต่าง ๆ เช่น REST API ด้วย Pandas
✔️ CH 2 การทำความสะอาดข้อมูล ด้วย Apache Spark
✔️ CH 3 การใช้ Google Cloud สร้าง Data Lake แบบเบื้องต้น
✔️ CH 4 การสร้าง Data Pipeline ที่ทำงานอัตโนมัติ ด้วย Apache Airflow
✔️ CH 5 การใช้ Google BigQuery สร้าง Data Warehouse
✔️ CH 6 การใช้ Google Data Studio สร้าง Dashboard
✔️ CH 7 ความรู้เพิ่มเติมที่ Data Engineer สมัยใหม่ต้องรู้ เช่น Snowflake, Delta Lake

ด่านแรก CH 0 Introduction to Data Engineering

โรดดี้ได้รับภาระกิจให้เป็น Data Engineer แต่มันคืออะไร มีข้อสงสัยมากมาย

ด่านแรกนี้จึงมารู้จักกับอาชีพData Engineer ที่ตอบข้อสงสัยของโรดดี้

Data Engineer vs Data Scientist แตกต่างกันอย่างไร

โร้ดดี้พบว่าในจักรวาลนี้ ยังมี BI Analyst , Data Scientist อยู่ด้วย

Database, Data Lake, Data Warehouse มันคืออะไรเลือกใช้ยังไง

Data Engineer ต้องมีความรู้หลายด้านประกอบไปด้วย

Data pipeline , Programing ,Software Engineer & Automation , Tech Stack

โรดดี้ต้องได้เริ่มฝึก พื้นฐานการเขียนโปรแกรมที่จำเป็น SQL , Python เป็นพื้นฐานเพื่อที่จะไปฝ่าด่านต่อไปได้

ด่านต่อไป CH 1 Data Pipeline & ETL

โร้ดดี้พบแอดฝน

โร้ดดี้ได้เดินทางมาเจอกับแอดฝนที่จะมาสอนวิชาต่างๆและเมื่อเรียนเสร็จจะต้องไปทำภาระกิจ workshop ต่างๆ ตามที่ได้รับมอบหมาย

ด่านนี้มาทำความรู้จักกับ ETL และการสร้าง Data Pipe line เพื่อเก็บข้อมูลและ API

อะไรคือ Data Pipeline ? ETL คืออะไร

Workshop 1 : Data Collection with Python

อ่านข้อมูลจาก MySQL , REST API ด้วย Python เพื่อสร้าง Dataset จากการรวบรวมข้อมูล

CH 2 Data Quality & Wrangling

โร้ดดี้ได้เรียนรู้การทำความสะอาดข้อมูล เป็นการพัฒนาคุณภาพของข้อมูลโดยการค้นและแก้ไขควำมผิดพลาดของข้อมูล ด้วยเครื่องมือ Apache Spark ทำDistributed Data Processing สำหรับข้อมูลขนาดใหญ่

Workshop 2 : Data Wrangling with Spark

https://blog.datath.com/cheatsheet-pyspark/

Spark ยังไม่พอโร้ดดี้ยังได้ไปเจอกับการฝึกภาคพิเศษ Special live : Databricks With TA Shane ได้รู้จัก Delta lake การฝึก Time travel กลับไปหาข้อมูลในอดีตจึงบังเกิดขึ้นที่นี่

CH 3 Basic Cloud Google Cloud

โร้ดดี้พบแอด Perth

การเดินทางของโร้ดดี้ได้มาเจอกับแอด Perth ซึ่งได้แนะนำให้รู้จักคลาวดี้ เข้าสู่โลกของ Cloud ที่เราส่งข้อมูลขึ้นไปจัดการบนนั้นได้โดยมีผู้ดูแล server ให้

Workshop 3 : Data Storage with GCS

โร้ดดี้รับภาระกิจมาใช้ Platform Google Cloud ในการจัดการข้อมูล โดยใช้คำสั่ง bash script ใน Cloud Shell และผ่านหน้าตาสวยๆ UI

CH 4 Introduction to Airflow

โร้ดดี้ได้พบกับเครื่องมือที่จะมาช่วยจัดสร้าง Data pipe line แบบ Automate ด้วยเจ้ากังหันลม Air flow ซึ่งเป็นเครื่องมือหลักของ DE

Workshop 4 : Automated Data Pipeline with Airflow

CH 5 Introduction to BigQuery

การจัดเก็บข้อมูล Data Warehouse สำหรับวิเคราะห์อย่างรวดเร็ว ด้วย Google BigQuery บริการแบบ Serverless การเรียกใช้ View , Materialized View

Workshop 5 : Building Data Warehouse with BigQuery

CH 6 Introduction to Google Data Studio

และแล้วก็มาถึงภาระกิจสุดท้าย คือการทำ Visualization ด้วยเครื่องมือ Google Data Studio ซึ่งนำเข้าข้อมูลจาก BigQuery ได้เลย

Workshop 6 : Building dashboard with Google Data Studio

โร้ดดี้ได้สร้าง Dashbaord สวยๆของยอดขายหนังสือทั่วโลกและยังสามารถ Filter ข้อมูลที่สนใจได้อีกด้วย

CH 7 Advanced Data Engineering

หลังจากที่โร้ดดี้ได้ผ่านการเรียนรู้และทำภาระกิจ workshop มากมาย และมีคลาวดี้คอยให้ service โร้ดดี้ก็พร้อมที่จะมุ่งไปดาว DE

โดยก่อนจะไปทาง แอด Perth , Fony ยังได้ให้ความรู้เพิ่มเติม Data Engineer สมัยใหม่ต้องรู้ เช่น Snowflake, Delta Lake, Data Quality , Efficient Data File , Git, Container & Docker ,Kubernetes ผ่านการเล่านิทาน,Data Pipeline Design & Architecture, Data Governance, กฎหมายความคุ้มครองข้อมูลส่วนบุคคล , Machine Leaning Engineer

รวมทั้งประสบการณ์ ชีวิตการทำงานจริงบนดาว DE และการทำ Resume สัมภาษณ์งานจากพี่แก้ว LMWNทำให้โร้ดดี้พร้อมแล้วที่จะไปดาว DE

Pipeline Design & Architecture LMVN

หลังจากการเดินทางมายาวนาน โร้ดดี้ก็ได้ถึงดาวดีอีแล้ว ถ้าคุณอยากเดินทางไปเหมือนโร้ดดี้ติดตามสมัครรุ่นต่อไปได้ที่ https://school.datath.com/

ส่วนอื่นๆเพิ่มเติม

รูปแบบการเรียน สอนสดผ่าน zoom และมี Video และ Slide ย้อนหลังให้ทบทวน

มี Special live ที่เป็นเหมือน bonus เสริมอีกมากมายที่ไม่สามารถกล่าวถึงได้หมดเพราะเยอะมากทั้ง hard skill , soft skill , การทำ profile-resume การสัมภาษณ์งาน

หากติดปัญหาการเรียน สามารถสอบถามได้ใน comunity facebook group หรือ จองเวลากับทาง TA เพื่อขอคำปรึกษา

เรียนจบสอบผ่านรับใบ certificate ไปเลย

--

--