การสร้างตัวชี้วัดของงาน Data Engineer ในเรื่องของการทำ Data SLA

Softnix
Softnix
Published in
2 min readFeb 5, 2018
ภาพจาก https://analyticsindiamag.com/10-best-data-cleaning-tools-get-data/

สืบเนื่องจากเมื่อสัปดาห์ที่ผ่านมาได้นำเสนอเครื่องมือ Open Source ที่ชื่อ Talend ซึ่งเป็นเครื่องมือ Big Data Integration ถึงความจำเป็นต่องาน Data Engineer เพื่อใช้เตรียมข้อมูลสำหรับการวิเคราะห์ ในงาน Data Analytics ซึ่งถ้าใครที่ไม่ได้ติดตามและสนใจเกี่ยวกับเรื่องนี้ ท่านสามารถเข้าไปรับฟังวิดีโอย้อนหลังด้านล่างนี้ครับ และถ้าสนใจผลงานของเรา ท่านสามารถกด follow up facebook page ของเราได้ครับ

ครั้งนี้อยากนำเสนอในเชิงบทความถึงการสร้างตัวชี้วัดสำคัญในการทำ Data SLA ของ Data Engineer (Data Engineer คืออะไรรับฟังได้จาก clip video ด้านบนได้ครับ) ซึ่งอยากนำเสนอด้วยกัน 2 ตัวชี้วัดคือ Data Delivery และ Data Accuracy ซึ่งในบทบาทของเครื่องมือประเภท Data Integration จะเข้าช่วยในเรื่องการวัดผลเรื่องนี้ได้ โดยอธิบายด้วยเหตุผลดังต่อไปนี้

Data Delivery

การจัดการ data ingestion และ data preparation เราต้องการเครื่องมือที่ช่วยให้เรา monitor การทำงานหรือ job process ได้ค่าเวลาในการ process เพื่อให้มั่นใจได้ว่า data ของเราส่งมอบไปยังปลายทางเช่น RDBMS หรือ BI Tools หรือแปลงข้อมูลให้อยู่ในรูปของ structure data เพื่อนำไปวิเคราะห์ใช้งาน ได้ตามค่าระยะเวลาที่กำหนด นอกจากนี้ปัญหาในเรื่องของ Interpretability เนื่องจาก data source อาจมาได้จากหลากหลายแหล่งที่มาและหลากหลายรูปแบบ ความไม่เข้ากันย่อมมีสูง ทำอย่างไร จึงจะสามารถทำให้อยู่ในมาตรฐานเดียวกันหรือการทำ standardization ให้กับข้อมูลมีมาตรฐานเดียวกัน ในส่วนนี้เครื่องมือ data integration ช่วยได้ในเรื่องของการจัดการ data source และการ transform data หรือ mapping data เพื่อให้ข้อมูลอยู่ในรูปแบบที่มาตรฐาน และที่สำคัญคือเรา monitor ได้

ตัวอย่างภาพจากเว็บไซต์ https://www.talendforge.org/forum/viewtopic.php?id=44360
ตัวอย่างการใช้ tmap ของ Talend จากเว็บไซต์ http://talenddev.blogspot.com/2016/03/apply-scd-without-using-scd-component.html

Data accuracy

นั้นก็คือการบริหารจัดการ Data Quality เช่น การตรวจสอบความซ้ำของคำ รูปแบบ ข้อมูลที่หาย (missing value) กระบวนการนี้สำคัญ เพราะถ้าข้อมูลไม่น่าเชื่อถือ การนำข้อมูลไปวิเคราะห์หรือใช้งานก็ผิด ซึ่งจากข้อมูลการสำรวจพบว่า กระบวนการนี้ใช้เวลามากถึง 80% ของกระบวนการวิเคราะห์ข้อมูลทั้งหมด

Data preparation accounts for about 80% of the work of data scientists

ข้อมูลจาก https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#683b18536f63

นอกจากนี้แล้วปัญหาและความท้าทายอีกประเด็นคือ คุณภาพของข้อมูลแปรเปลี่ยนไปตามเวลา เช่น ข้อมูลเดิมที่ใช้อาจจะไม่พอ ต้องมีการนำข้อมูลใหม่เข้ามาเพิ่ม หรือข้อมูลมีการเปลี่ยนรูปแบบ format เพราะมีการอับเดท software ดังนั้นกระบวนการนี้ จึงจำเป็นต้องใช้เครื่องมือเข้ามาจัดการเพื่อง่ายต่อการนำเข้าและเปลี่ยนแปลง

ข้อมูลความสามารถของ Data Preparation ของ Talend

บทความนี้ขอพอแค่นี้ก่อนครับ admin เขียนเยอะทีไร ยอดคนอ่านน้อยทุกที แบ่งเนื้อหาออกทีละนิดทีละตอนน่าจะดีกว่า

จากประสบการณ์ของเราที่ทำเครื่องมือ Data Lake Platform (ย้อนอ่าน Data lake คืออะไร) สำหรับการทำ Data Analytics เรามักจะพบว่า value ของ platform ที่แท้จริงคือการทำอย่างไรก็ตามให้ผู้ใช้ platform ของเราเข้าถึง value หรือ data insight ได้ในเวลาที่รวดเร็ว ดั่งข้อความที่เขียนไว้เป็นเป้าหมายในการทำงาน

Use a Data Lake to Accelerate Time to Insight

และเราพบว่า กระบวนการ Data Integration เป็นกระบวนการที่หลีกเลี่ยงยาก และสิ้นเปรืองระยะเวลาที่สุด เราจึงต้องแสวงหาเครื่องมือเพื่อนำมาช่วยในเรื่องนี้ และ Talend ก็เป็นอีกเครื่องมือที่ดี ถ้าท่านใดสนใจอยากรับคำปรึกษาการใช้งานสามารถปรึกษาเราได้ครับ และตอนนี้ admin กำลังจะวางแผนเพื่อทำกิจกรรมการอบรมการใช้งานสำหรับผู้ที่สนใจ ท่านใดที่สนใจ ตาม facebook page ของ softnix ได้ครับ ถ้าพร้อมเราจะประกาศอีกทีนะครับ

โปรดติดตามตอนต่อไป :)

--

--