การออกแบบ Data Lake Platform อย่างไรให้สำเร็จ

Softnix
Softnix
Published in
2 min readNov 2, 2017

ก่อนอื่น ต้องให้เครดิตก่อนครับ เนื้อหาทั้งหมดนี้ มาจากในหนังสือ The Enterprise Data Lake และสอดแทรกข้อมูลส่วนตัวเพิ่มเติม เพื่อให้เข้าใจง่ายขึ้น ถ้าอยากศึกษาเกี่ยวกับ Data Lake Platform ให้ละเอียดลองหามาอ่านเพิ่มเติมได้ครับ

http://www.oreilly.com/catalog/errata.csp?isbn=0636920042204

สำหรับใครยังไม่ทราบว่า Data Lake คืออะไร สามารถอ่านได้จากบทความเก่าของเราได้ที่ Data Lake แนวคิดใหม่ที่ทุกองค์กรต้องเริ่มต้น

เริ่มเลยนะครับ

ในหนังสือเล่มนี้เขาอธิบายการจัดประเภทของการจัดการ Data ออกตามระดับของ Business Value ดังนี้

  • Data Swamp เป็นระดับแรก ยังไม่มี Value โดยในระดับนี้ข้อมูลจะเป็นเพียง Raw Data ยังไม่สามารถค้นหาประโยชน์จากมันได้ และไม่สามารถกำหนดสิทธิ์ความปลอดภัยในการเข้าถึง ไม่มีระบบป้องกันใดๆ ตัวอย่างการจัดการข้อมูลแบบนี้ เช่น ข้อมูลที่เก็บอยู่ในระบบตัวมันเอง แยกกันเก็บ ยังไม่มีระบบการจัดการ
  • Data Warehouse Off-loading ระดับนี้มีความสามารถในการทำ Predictable ได้ ในกระบวนการทำ Data Warehouse จะต้องมีการแปลงข้อมูลจากต้นฉบับที่เรามักเรียกว่าการ transform หรือ ETL ดังนั้นจึงไม่มีการจัดเก็บข้อมูลต้นฉบับ และเมื่อ Business มีนโยบายต้องขยายระยะเวลาในการจัดเก็บพร้อมกับความต้องการลดต้นทุนของระบบ Data warehouse จะต้อง implement data lake แทน ปัญหาที่ตามมาคือ ข้อมูลที่ได้จาก DW หาต้นทางของข้อมูลที่เป็นข้อมูล original ไม่ได้
  • Data Puddles ระดับนี้ เป็นระดับที่ใช้เรียกในการจัดการข้อมูลที่เป็นกลุ่มของข้อมูลไม่มากนัก Low data variety มีความหลากหลายน้อย เพื่อที่จะ Focus บางเรื่องที่ต้องการเป้นพิเศษ เช่น การทำ Fraud detection ข้อมูลในส่วนนี้มักจะใช้เป็น Dataset สำหรับนักวิเคราะห์ข้อมูลใช้วิเคราะห์ ระบบที่ทำงานในระดับนี้มักจะเป็น Sandbox ของ Data Science ที่สำคัญคนใช้งานต้องมีความเชี่ยวชาญสูง
  • Data Lake ระดับนี้ Business Value จะสูงสุด ซึ่งระบบนี้จะครอบคุมทุกชนิดของการจัดการข้อมูลทั้งหมดที่กล่าวมา

โดยองค์ประกอบของการสร้างระบบ Data Lake ให้สำเร็จนั้น

จะต้องมีองค์ประกอบดังต่อไปนี้

  1. Right Platform
  2. Right Data
  3. Right Interface

Right Platform

Platform สำหรับ Data Lake ที่เหมาะสมที่สุดคือ Hadopp เพราะตอบโจทธ์ดังต่อไปนี้

  • Volume สามารถ Scale ได้ จึงรองรับปริมาณข้อมูลที่เพิ่มขึ้นมหาศาลได้
  • Variety ระบบรองรับการจัดการข้อมูลหลากหลาย format ด้วยคุณสมบัติของ Parallel processing ของ Hadoop
  • Future Proof ข้อมูลเดียวกัน สามารถใช้ได้ในอนาคตได้และใช้ได้กับหลากหลาย technology เพราะ data ถูกจัดเก็บตามต้นฉบับไม่ได้เปลี่ยนแปลง
  • Platform cost องค์ประกอบของ data lake มาจาก Open Source Software แน่นอน ประหยัดงบประมาณในส่วนของ License Software ได้อย่างมากและสามารถใช้งานได้อย่างอิสระด้วย

Right Data

เราไม่รู้ว่าข้อมูลในปัจจุบันเราจะต้องการใช้มันอีกหรือไม่ในอนาคต และการจัดเก็บข้อมูลเพื่อการวิเคราะห์ปัจจุบัน มักเก็บบนระบบ Data warehouse ดังนั้นเมื่อ data หาย ก็ไม่สามารถนำกลับมาวิเคราะห์ใหม่ได้ ดังนั้นความหมายของ Right Data ในที่นี้คือ จัดเก็บก่อนแล้วค่อยวิเคราะห์ภายหลัง และเมื่อเราเลือกเก็บข้อมูลใน Right Platform เช่น Hadoop จึงมั่นใจได้ว่า Data ไม่สูญหายอย่างแน่นอนด้วยคุณสมบัติของ HDFS (Hadoop distributed filesystem) ดังนั้น Right Data จึงมีความหมายว่า เก็บบันทึกข้อมูลในส่วนที่เป็น Raw Data ไว้ให้เรียบร้อยและครบถ้วน แล้วค่อยวิเคราะห์ในภายหลัง เมื่อต้องการ และการเก็บ Raw Data ทำให้เราใช้ Data นั้นกับ use case ต่างๆที่เราต้องการทำในอนาคตได้อย่างถูกต้อง

และอีกประเด็นคือ ความท้าทายของการจัดเก็บข้อมูลสำหรับ Enterprise กล่าวคือ ในแต่ละแผนก แต่ละฝ่าย มีความเป็นเจ้าของข้อมูล ไม่ยอมแชร์เข้าไปใน Right Platform หรือ Data Lake ปัญหานี้องค์กรใหญ่ๆมีแน่นอน ซึ่งต้องปรับทัศนะหรือเป็นหน้าที่ของฝ่ายบริหารที่จะต้องสร้างความเข้าใจและประโยชน์ที่จะเกิดขึ้น

Right Interface

ความหมายก็คือ ระบบนั้นต้องออกแบบมาให้เหมาะในแต่ละระดับของผู้ใช้ ตามทักษะของผู้ใช้ เช่น ถ้า Platform ออกแบบมาสำหรับ Data Science อาจจะต้องเน้นให้เข้าถึง Raw Data โดยตรงได้เลย เพราะ Data Science มีทักษะที่สูงกว่า แต่ถ้าเป็น Business User ระบบ Platform อาจจะต้องออกแบบให้จนถึงการ Visualization จนเสร็จ แบบ End-2-End

Data Governance Level

ในส่วนนี้ก็ต้องให้ความสำคัญพอสมควร ระดับความสำคัญของความปลอดภัยของข้อมูล ถ้าระบบ Data Lake เราออกแบบในส่วนนี้ไม่ดีนัก ข้อมูลที่จะจัดเก็บจะต้องไม่ใช่ข้อมูลที่สำคัญ หรือ Sensitive Data

แต่ถ้าเป็นข้อมูลที่สำคัญ เป็น Sensitive Data การออกแบบในส่วนของ Governance จะต้องให้ความสำคัญ เช่น ระบบพิสูจน์สิทธิ์ (Authentication) ระบบ Access Control ระบบ Change Management ต่างๆ ทุกอย่างจะต้องมี Audit Log กำกับเสมอ

โปรดติดตามอ่านตอนต่อไป

--

--