เรื่องที่ควรรู้ก่อนไปสอบสัมภาษณ์งานData Engineer (ฉบับอ่านวันนี้สอบพรุ่งนี้)
ก่อนอื่นเลย ผมต้องขอบอกก่อนว่าผมได้เรียนคอร์ส R2DE2 ของ DataTH School ดังนั้นความรู้ต่างๆที่ผมได้มาก็มาจากคอร์สนี้ละครับ ซึ่งผมต้องขอบอกเลยว่าใครที่กำลังจะเปลี่ยนสายงานหรืออยากศึกษา การเป็นData Engineer คอร์สนี้ตอบโจทย์มากครับ เนื้อหาแน่นมากและผู้สอนทุกคนเอาใจใส่นักเรียนมากกก สามารถปรึกษาแบบตัวต่อตัวได้หรือแบบกลุ่มก็ได้ แถมมีเนื้อหาพิเศษเพิ่มให้ในคอร์สด้วยแต่ละอันบอกเลยว่าว้าวๆทั้งนั้น เอาละครับเรามาเข้าสู่เนื้อหาหลักกันเลยครับ
รวมเรื่องที่ควรรู้ก่อนไปสอบสัมภาษณ์
Types of Data มีอะไรบ้าง
1. Structured Data (ไฟล์ CSV)
2. Semi-Structured Data (JSON)
3. Unstructured Data (VDO,รูปภาพ)
OLTP vs OLAP คืออะไร
OLTP: Online Transaction Processing (DataBase) ถูกออกแบบให้สำหรับการเขียนและอัพเดตข้อมูล
OLAP: Online Analytical Processing (DataWarehouse) ถูกออกแบบให้สำหรับการอ่านข้อมูลจำนวนมากๆเพื่อนำไปวิเคราะห์ข้อมูล
Data Lake คืออะไร
ที่เก็บข้อมูลทุกรูปแบบเก็บได้ทั้งStructured Data, Semi-Structured Data และ Unstructured Data
ETL vs ELT ต่างกันยังไง
ETL( Extract-Transform-Load):ระบบปลายทางไม่ต้องประมวลผลหนัก Data Analystต้องรอข้อมูลจนETLเสร็จ
ELT(Extract-Load-Transform): Data Analyst เข้าถึงข้อมูลได้เร็วกว่า แบบETL แต่ระบบปลายทางต้องประมวลผลหนัก
Batch vs Streaming ต่างกันยังไง
Batch: ข้อมูลจะถูกส่งเข้ามาและประมวลผลตามช่วงเวลาที่กำหนด
Streaming: ข้อมูลจะถูกส่งเข้ามาทันที และ ทำประมวลผลทันที
Data Integration คืออะไร
เป็นการนำข้อมูลจากหลากหลายแหน่งข้อมูลมารวมกันให้เป็นข้อมูลชุดเดียว
Types of Data Integration Tasks มีกี่ชนิดและอะไรบ้าง
1. Schema integration:โครงสร้างข้อมูลแตกต่างกัน
2. Data integration:ข้อมูลเดียวกันแต่เก็บแตกต่างกัน
Data Quality มีอะไรบ้าง
1. Completeness: ข้อมูลครบไม่มีสูญหาย
2. Validity: ไม่มีสิ่งที่ผิดข้อจำกัด
3. Consistency: ข้อมูลจากหลายแหล่งข้อมูลควรใช้โครงสร้างคล้ายกัน
3เครื่องมือสำหรับData Qualityมีอะไรบ้าง
1. Data Dictionary: ไฟล์ที่รวบรวมรายละเอียดทุกคอลัมน์ในตารางข้อมูล
2. Data Lineage: เส้นทางการเดินทางของข้อมูลตั้งแต่ต้นจนจบ
3. Data Catalogue: แหล่งรวมข้อมูลและรายละเอียดเกี่ยวกับข้อมูล
Data Profiling คือ
การดึงข้อมูลจากแหล่งข้อมูลเพื่อดูเนื้อหาและความสัมพันธ์แทนที่จะดูจากข้อมูลที่อาจจะไม่อัพเดทจากเอกสารการใช้งาน
EDA (Exploratory Data Analysis) คือ
การเจาะลึกดูรายละเอียดข้อมูลและความสัมพันธ์ของแถว/คอลัมน์
Cloud Computing มีกี่ชนิดและอะไรบ้าง
มี3ชนิดด้วยกันได้แก่
1. Public Cloud: ระบบCloudที่ให้บุคคลทั่วไปสามารถเข้าไปใช้งานได้ เช่น AWS, GCP, Azure ซึ่งจะให้บริการต่างๆ
2. Private Cloud: ระบบCloud ที่ใช้ในองค์กรบุคคลทั่วไปไม่สามารถเข้าไปใช้งานได้
3. Hybrid Cloud:เป็นลูกผสมของPublic Cloud และ Private Cloud
Types of Data Pipeline มีกี่ชนิดและอะไรบ้าง
1. Initial Load/Full Load:ดึงข้อมูลทั้งหมดจากแหล่งข้อมูล
2. Change Data Capture (CDC) Load:ดึงข้อมูลใหม่ และข้อมูลที่เปลี่ยนแปลงจากแหล่งข้อมูล
ข้อความส่งท้ายบทความ
หวังว่าทุกคนจะอ่านจนถึงจุดนี้กันนะครับ555 และต้องขอบคุณทุกคนที่เข้ามาอ่านมากๆด้วยนะครับ สำหรับคนที่รู้สึกอยากจะเรียนรู้มากกว่านี้เหมือนเดิมครับผมแนะนำคอร์ส R2DE ของ DataTH School เพราะเนื้อหาแน่นมากและที่สำคัญเลยคอร์ส Data Engineer หาเรียนยากมากครับเท่าที่ผมเห็นตอนนี้มีแต่ที่นี้เท่านั้นละครับที่เปิดสอน และท้ายที่สุดสำหรับคนที่กำลังหางานหรือกำลังเปลี่ยนสายงานขอให้ทุกท่านสมหวังกันทุกคนนะครับ บายยยยยยย จบ….