รู้จักกับ Big Data

ทุกวันนี้หลายคนคงได้ยินคำว่า big data จนชินหูไปแล้ว ไม่ว่าจะหันไปทางไหน สื่ออะไร ก็พูดถึง big data โดยเฉพาะคนที่ทำงานสาย IT ถ้าไม่เคยได้ยินคำว่า “Big Data” ถือว่าตกกระแสอย่างแรง
มีอยู่วันหนึ่ง รุ่นน้องผมคนหนึ่งเป็น IT Manager ของธนาคารแห่งหนึ่ง โทรมาถามผมว่า “พี่ๆ ถ้าเราจะ implement ระบบ Big Data ต้องเริ่มยังไง” ผมเลยถามกลับไปว่า “Big Data คืออะไร” รุ่นน้องผมเงียบไปพักหนึ่งแล้วตอบกลับมาว่า “ไม่รู้อ่ะพี่ เบื้องบนเค้าสั่งให้มาเตรียม ไม่รู้จะเริ่มยังไง เลยโทรมาถามนี่แหล่ะ” ถ้าต้องเตรียมระบบเพื่อรองรับ Big Data สิ่งแรกที่คุณควรจะทำก่อนอื่นเลยคือ
“ตั้งโจทย์ ว่าเราจะ implement ระบบเพื่อรองรับ Big Data ไปเพื่ออะไร”
อะไรคือ Big Data
Big Data แปลตรงๆตัวคือ ข้อมูลที่มันใหญ่มาก มากจนเกินกว่าระบบที่เรามีอยู่จะรับไหว พูดง่ายๆคือ ถ้าคนมีระบบ (software + hardware + people) อยู่ที่ยังสามารถบริหารจัดการกับข้อมูลที่มีและเพิ่มขึ้นเรื่อยๆภายในระบบของคุณได้ คุณยังไม่ต้องจัดการกับปัญหา ที่เรียกว่า Big Data แต่เมื่อใดที่คุณเริ่มกังวลว่า disk space เหลือน้อยแล้ว ทำไมมันเต็มเร็วจังทั้งๆที่เพิ่ม disk ไปเมื่อเดือนที่แล้ว หรือ แผนกต่างๆ มีโปรแกรมหรือระบบย่อยที่ใช้เก็บข้อมูลของใครของมัน ไม่เป็นรูปแบบเดียวกัน บางแผนกเก็บข้อมูลใน excel file บางแผนก เก็บใน database บางแผนกเก็บเป็น binary file เมื่อผู้บริหารต้องการรายงานสรุปประจำเดือน คุณต้องมานั่งแปลงข้อมูลจากแผนกต่างๆ เพื่อให้อยู่ในรูปแบบเดียวกัน จึงจะสามารถทำรายงานได้ ถ้าคนเริ่มมีปัญหาเหล่านี้เกิดขึ้น นั่นอาจจะถึงเวลาที่คุณต้องทำการ implement ระบเพื่อให้รองรับ Big Data แล้ว
ลักษณะสำคัญ 4 ประการที่เป็นสัญญาณว่า คุณกำลังเจอกับ Big Data (4V’s characteristics of Big data)

V1: Volume — ปริมาณของข้อมูลที่มีจำนวนมาก เมื่ออุปกรณ์ที่ใช้ในการจัดเก็บข้อมูลของเราเริ่มจะไม่เพียงพอ หรือมีที่ว่างเหลือน้อย นั่นหมายถึงว่า เรามีปริมาณข้อมูลที่มากจนจะรับไม่ไหว
V2: Velocity— อัตราการเพิ่มของข้อมูลที่เพิ่มขึ้นอย่างรวดเร็ว ข้อมูลที่ไหลเข้ามาในระบบและถูกจัดเก็บไว้มีแนวโน้มที่จะเพิ่มขึ้นอย่างรวดเร็ว เช่น ในแต่ละเวันมีข้อมูลเพิ่มขึ้นเป็น 2 เท่าของเมื่อวาน อัตราการเติบโตแบบนี้จะมีลักษณะเป็นแบบ exponential ทำเกิดปัญหาที่จัดเก็บข้อมูลไม่เพียงพอในเวลาอันรวดเร็ว
V3: Variety — ความหลากหลายของข้อมูล มีข้อมูลในระบบอยู่หลายรูปแบบ (format) ทั้งเป็นโครงสร้าง (เช่น relational database) กึ่งโครงสร้าง (xmlหรือ json format) และไม่เป็นโครงสร้าง (ไฟล์ต่างๆเช่น text file, image files หรือ audio files) ทำให้จัดการได้ยากลำบาก ต้องใช้โปรแกรมหรือเครื่องมือที่หลากหลาย เพื่อเข้าถึงข้อมูลที่มีต่างรูปแบบกัน
V4: Veracity— ความน่าเชื่อถือของข้อมูล เนื่องจากความหลากหลายของข้อมูล และมีที่มาที่แตกต่างกัน ทำให้ข้อมูลบางอย่าง อาจจะเป็นข้อมูลเท็จ หรือเป็น ข้อมูลที่ไม่มีประโยชน์ นำมาใช้งานไม่ได้ เช่น spam mail ที่ส่งเข้ามาในระบบหรือ ข้อความ post ที่มาจาก Ad bot เพื่อโฆษณาขายสินค้า เป็นต้น
จากทั้ง 4 V ที่กล่าวมาข้างต้น ถ้าหน่วยงานของคุณ เจอปัญหา 2 ใน 4 V นี้ แสดงว่า เราอาจจะต้องเริ่มวางแผนเพื่อจัดการกับ Big Data ได้แล้ว ก่อนที่ทุกอย่างจะสายเกินไป
เตรียมรับมือกับ Big Data
เมื่อเรากำลังเผชิญกับ Big Data เราควรจะมีแผนเพื่อรับมือกับปัญหาจาก 4V ที่กล่าวมาดังนี้
- การรับมือกับ V1 และ V2 (Volume+ Velocity) — จากปัญหาปริมาณและอัตราการโตของข้อมูลที่รวดเร็ว เราควรจะทราบอัตราการโตของข้อมูลในระบบของเราคร่าวๆ ให้ได้เสียก่อน เพื่อจะได้วางแผนการขยายขนาดของหน่วยจัดเก็บข้อมูลได้อย่างถูกต้อง ทั้งการขยายระบบแบบ Horizontal Scale และ Vertical Scale
Horizontal Scaling หมายถึง การเพิ่มจำนวน machine หรือ server เครื่องใหม่เข้าไปในระบบ
Vertical Scaling หมายถึง การเพิ่ม power ในที่นี้หมายถึง การเพิ่ม CPU หรือ RAM หรือ Disk เข้าไปใน machine เดิมที่มีอยู่แล้ว
2. การรับมือกับ V3 และ V4 (Variety + Veracity) — การจัดการกับรูปแบบของข้อมูลและความน่าเชื่อถือของข้อมูลนั้น จำเป็นอย่างยิ่งที่จะต้องใช้คน หรือ บุคลากร ที่มีความรู้ความเชี่ยวชาญในการจัดการกับข้อมูลให้อยู่ในรูปแบบที่จัดการและตรวจสอบคัดกรองได้ง่าย ซึ่งปัจจุบันนี้ มีสายงาน IT ที่เรียกว่า นักวิทยาศาสตร์ข้อมูล (Data Scientist)
ทั้งหมดทั้งมวลนั้นเราทำเพื่อให้ได้ V ที่ 5 นั่นคือ VALUE ของข้อมูลนั่นเอง
VALUE — V ตัวที่ 5 และความสำคัญ
Value เป็น V ตัวที่ 5 ที่หลายๆองค์กรที่ทำระบบ Big Data ต้องการ การทำข้อมูลหรือ data ให้มี Value นั้น หมายถึงการนำข้อมูลมาสร้างองค์ความรู้ใหม่ (new knowledge) เพื่อให้ก่อประโยชน์ทั้งทางตรงและทางอ้อมต่อองค์กร เช่น บริษัทให้บริการโทรศัพท์มือถือ จะนำข้อมูลการใช้งานของลูกค้า มาประมวลผลเพื่อให้ได้องค์ความรู้ใหม่ที่ใช้ในการทำการตลาด การออก แคมเปญใหม่ๆ เพื่อเพิ่มยอดขาย เป็นต้น
แล้วจะได้ Value มายังไง
การสร้าง Value จากข้อมูลที่มีอยู่ต้องอาศัยปัจจัยต่างๆ ต่อไปนี้
ปัญหาหรือโจทย์ — จากที่กล่าวไปข้างต้นของบทความนี้ สิ่งแรกที่เราต้องทำก่อนที่จะ implement Big Data คือ เราจะทำไปเพื่อให้ได้อะไร ถ้าเราไม่มีปัญหา เราก็จะไม่มีทิศทาง ไม่มีเป้าหมายที่จะแก้ปัญหา ดังนั้น การสร้าง Value จำเป็นจะต้องตั้งโจทย์หรือปัญหาให้ได้เป็นอันดับแรก เช่น ถ้าคุณเป็นหมอหรือเป็นผู้บริหารโรงพยาบาลแห่งหนึ่ง คุณอาจจะมีโจทย์ว่า “เราจะทำอย่างไร ให้สามารถคัดกรองคนไข้ให้ถูกต้องในเวลาอันรวดเร็ว เพื่อประสิทธิภาพที่ดีในการรักษาของแพทย์ และช่วยให้คนไข้ประหยัดเวลา ไม่ต้องวิ่งไปมาหลายแผนก” เป็นต้น
เครื่องมือและวิธีการ — เมื่อเราตั้งโจทย์หรือปัญหาได้แล้ว ลำดับต่อมาเราต้องมีวิธีการที่จะนำมาแก้ปัญหานั้นๆ รวมทั้งมีเครื่องมือ (software tools) หรือโปรแกรมที่พัฒนาขึ้นเอง เพื่อใช้ในการแก้โจทย์ที่ได้มา เช่น จากปัญหาของโรงพยาบาลเรื่องการคดกรองคนไข้ในข้อที่แล้ว วิธีการแก้ปัญหา อาจจะนำข้อมูลประวัติการรักษาหรือการตรวจคัดกรองผู้ป่วยมาทำเป็นระบบ Expert System เพื่อเป็นแนวทางให้พยาบาลในจุดคัดกรอง สามารถวินิจฉัยอาการเบื้องต้นได้รวดเร็วขึ้น
บุคลากร — เป็นบุคคลหรือกลุ่มคนที่มีความรู้ความเข้าใจปัญหาและสามารถเลือกใช้เครื่องมือหรือวิธีการที่จะนำข้อมูลที่มีอยู่มาสร้างเป็นองค์ความรู้ (knowledge) เพื่อใช้ในการแก้ปัญหาที่องค์กรตั้งโจทย์ไว้ได้ กลุ่มบุคคลเหล่านี้ ส่วนมาจะมีความรู้ในสาขา Data Science หรือ Machine Learning และจำเป็นต้องมีความรู้เกี่ยวกับกิจการหรือหน่วยงานที่ตนเองสังกัดอยู่เป็นอย่างดี เช่น Data Scienctist ที่ทำงานภายในโรงพยาบาลจำเป็นต้องมีความรู้เรื่องการรักษาพยาบาลหรือการวินิจฉัยโรคเบื้องต้น หรือ ถ้าทำงานในบริษัทประกันภัย ก็จำเป็นจะต้องศึกษาวิธีการรับประกันภัยหรือเงื่อนไขการเคลมประกัน เป็นต้น
ถ้าเรา implement ระบบ Big Data แล้วไม่ทำให้เกิด VALUE ก็ไม่ต่างอะไรกับการทำถังขยะใบใหญ่ๆไว้แค่นั้น
สรุป
Big Data คือ ข้อมูลในระบบที่กำลังจะท่วมท้นจนคุณรับไม่ไหว ซึ่งประกอบไปด้วยปัจจัยหลักๆ 4 ปัจจัย ขนาดที่มากขึ้น อัตราการเพิ่มที่รวดเร็ว ความหลกหลาย และความน่าเชื่อถือของข้อมูล ซึ่งถ้าเราจัดการกับ 4 ปัจจัยนี้ได้จะส่งผลให้เรามีศักยภาพที่จะสามารถค้นพบ Value จากข้อมูลเพื่อนำไปใช้ประโยชน์ในองค์กรของคุณต่อไป
