เรื่องที่ควรรู้ก่อนไปสอบสัมภาษณ์งานData Engineer (ฉบับอ่านวันนี้สอบพรุ่งนี้)

Chanon Sattrupinat
1 min readOct 7, 2021

--

ก่อนอื่นเลย ผมต้องขอบอกก่อนว่าผมได้เรียนคอร์ส R2DE2 ของ DataTH School ดังนั้นความรู้ต่างๆที่ผมได้มาก็มาจากคอร์สนี้ละครับ ซึ่งผมต้องขอบอกเลยว่าใครที่กำลังจะเปลี่ยนสายงานหรืออยากศึกษา การเป็นData Engineer คอร์สนี้ตอบโจทย์มากครับ เนื้อหาแน่นมากและผู้สอนทุกคนเอาใจใส่นักเรียนมากกก สามารถปรึกษาแบบตัวต่อตัวได้หรือแบบกลุ่มก็ได้ แถมมีเนื้อหาพิเศษเพิ่มให้ในคอร์สด้วยแต่ละอันบอกเลยว่าว้าวๆทั้งนั้น เอาละครับเรามาเข้าสู่เนื้อหาหลักกันเลยครับ

รวมเรื่องที่ควรรู้ก่อนไปสอบสัมภาษณ์

Types of Data มีอะไรบ้าง

1. Structured Data (ไฟล์ CSV)

2. Semi-Structured Data (JSON)

3. Unstructured Data (VDO,รูปภาพ)

OLTP vs OLAP คืออะไร

OLTP: Online Transaction Processing (DataBase) ถูกออกแบบให้สำหรับการเขียนและอัพเดตข้อมูล

OLAP: Online Analytical Processing (DataWarehouse) ถูกออกแบบให้สำหรับการอ่านข้อมูลจำนวนมากๆเพื่อนำไปวิเคราะห์ข้อมูล

Data Lake คืออะไร

ที่เก็บข้อมูลทุกรูปแบบเก็บได้ทั้งStructured Data, Semi-Structured Data และ Unstructured Data

ETL vs ELT ต่างกันยังไง

ETL( Extract-Transform-Load):ระบบปลายทางไม่ต้องประมวลผลหนัก Data Analystต้องรอข้อมูลจนETLเสร็จ

ELT(Extract-Load-Transform): Data Analyst เข้าถึงข้อมูลได้เร็วกว่า แบบETL แต่ระบบปลายทางต้องประมวลผลหนัก

Batch vs Streaming ต่างกันยังไง

Batch: ข้อมูลจะถูกส่งเข้ามาและประมวลผลตามช่วงเวลาที่กำหนด

Streaming: ข้อมูลจะถูกส่งเข้ามาทันที และ ทำประมวลผลทันที

Data Integration คืออะไร

เป็นการนำข้อมูลจากหลากหลายแหน่งข้อมูลมารวมกันให้เป็นข้อมูลชุดเดียว

Types of Data Integration Tasks มีกี่ชนิดและอะไรบ้าง

1. Schema integration:โครงสร้างข้อมูลแตกต่างกัน

2. Data integration:ข้อมูลเดียวกันแต่เก็บแตกต่างกัน

Data Quality มีอะไรบ้าง

1. Completeness: ข้อมูลครบไม่มีสูญหาย

2. Validity: ไม่มีสิ่งที่ผิดข้อจำกัด

3. Consistency: ข้อมูลจากหลายแหล่งข้อมูลควรใช้โครงสร้างคล้ายกัน

3เครื่องมือสำหรับData Qualityมีอะไรบ้าง

1. Data Dictionary: ไฟล์ที่รวบรวมรายละเอียดทุกคอลัมน์ในตารางข้อมูล

2. Data Lineage: เส้นทางการเดินทางของข้อมูลตั้งแต่ต้นจนจบ

3. Data Catalogue: แหล่งรวมข้อมูลและรายละเอียดเกี่ยวกับข้อมูล

Data Profiling คือ

การดึงข้อมูลจากแหล่งข้อมูลเพื่อดูเนื้อหาและความสัมพันธ์แทนที่จะดูจากข้อมูลที่อาจจะไม่อัพเดทจากเอกสารการใช้งาน

EDA (Exploratory Data Analysis) คือ

การเจาะลึกดูรายละเอียดข้อมูลและความสัมพันธ์ของแถว/คอลัมน์

Cloud Computing มีกี่ชนิดและอะไรบ้าง

มี3ชนิดด้วยกันได้แก่

1. Public Cloud: ระบบCloudที่ให้บุคคลทั่วไปสามารถเข้าไปใช้งานได้ เช่น AWS, GCP, Azure ซึ่งจะให้บริการต่างๆ

2. Private Cloud: ระบบCloud ที่ใช้ในองค์กรบุคคลทั่วไปไม่สามารถเข้าไปใช้งานได้

3. Hybrid Cloud:เป็นลูกผสมของPublic Cloud และ Private Cloud

Types of Data Pipeline มีกี่ชนิดและอะไรบ้าง

1. Initial Load/Full Load:ดึงข้อมูลทั้งหมดจากแหล่งข้อมูล

2. Change Data Capture (CDC) Load:ดึงข้อมูลใหม่ และข้อมูลที่เปลี่ยนแปลงจากแหล่งข้อมูล

ข้อความส่งท้ายบทความ

หวังว่าทุกคนจะอ่านจนถึงจุดนี้กันนะครับ555 และต้องขอบคุณทุกคนที่เข้ามาอ่านมากๆด้วยนะครับ สำหรับคนที่รู้สึกอยากจะเรียนรู้มากกว่านี้เหมือนเดิมครับผมแนะนำคอร์ส R2DE ของ DataTH School เพราะเนื้อหาแน่นมากและที่สำคัญเลยคอร์ส Data Engineer หาเรียนยากมากครับเท่าที่ผมเห็นตอนนี้มีแต่ที่นี้เท่านั้นละครับที่เปิดสอน และท้ายที่สุดสำหรับคนที่กำลังหางานหรือกำลังเปลี่ยนสายงานขอให้ทุกท่านสมหวังกันทุกคนนะครับ บายยยยยยย จบ….

--

--