รู้จักกับ Big Data

devplanter Team
Sep 2, 2018 · 2 min read

ทุกวันนี้หลายคนคงได้ยินคำว่า big data จนชินหูไปแล้ว ไม่ว่าจะหันไปทางไหน สื่ออะไร ก็พูดถึง big data โดยเฉพาะคนที่ทำงานสาย IT ถ้าไม่เคยได้ยินคำว่า “Big Data” ถือว่าตกกระแสอย่างแรง

มีอยู่วันหนึ่ง รุ่นน้องผมคนหนึ่งเป็น IT Manager ของธนาคารแห่งหนึ่ง โทรมาถามผมว่า “พี่ๆ ถ้าเราจะ implement ระบบ Big Data ต้องเริ่มยังไง” ผมเลยถามกลับไปว่า “Big Data คืออะไร” รุ่นน้องผมเงียบไปพักหนึ่งแล้วตอบกลับมาว่า “ไม่รู้อ่ะพี่ เบื้องบนเค้าสั่งให้มาเตรียม ไม่รู้จะเริ่มยังไง เลยโทรมาถามนี่แหล่ะ” ถ้าต้องเตรียมระบบเพื่อรองรับ Big Data สิ่งแรกที่คุณควรจะทำก่อนอื่นเลยคือ

“ตั้งโจทย์ ว่าเราจะ implement ระบบเพื่อรองรับ Big Data ไปเพื่ออะไร”

อะไรคือ Big Data

Big Data แปลตรงๆตัวคือ ข้อมูลที่มันใหญ่มาก มากจนเกินกว่าระบบที่เรามีอยู่จะรับไหว พูดง่ายๆคือ ถ้าคนมีระบบ (software + hardware + people) อยู่ที่ยังสามารถบริหารจัดการกับข้อมูลที่มีและเพิ่มขึ้นเรื่อยๆภายในระบบของคุณได้ คุณยังไม่ต้องจัดการกับปัญหา ที่เรียกว่า Big Data แต่เมื่อใดที่คุณเริ่มกังวลว่า disk space เหลือน้อยแล้ว ทำไมมันเต็มเร็วจังทั้งๆที่เพิ่ม disk ไปเมื่อเดือนที่แล้ว หรือ แผนกต่างๆ มีโปรแกรมหรือระบบย่อยที่ใช้เก็บข้อมูลของใครของมัน ไม่เป็นรูปแบบเดียวกัน บางแผนกเก็บข้อมูลใน excel file บางแผนก เก็บใน database บางแผนกเก็บเป็น binary file เมื่อผู้บริหารต้องการรายงานสรุปประจำเดือน คุณต้องมานั่งแปลงข้อมูลจากแผนกต่างๆ เพื่อให้อยู่ในรูปแบบเดียวกัน จึงจะสามารถทำรายงานได้ ถ้าคนเริ่มมีปัญหาเหล่านี้เกิดขึ้น นั่นอาจจะถึงเวลาที่คุณต้องทำการ implement ระบเพื่อให้รองรับ Big Data แล้ว

ลักษณะสำคัญ 4 ประการที่เป็นสัญญาณว่า คุณกำลังเจอกับ Big Data (4V’s characteristics of Big data)

4 V’s of Big Data

V1: Volume — ปริมาณของข้อมูลที่มีจำนวนมาก เมื่ออุปกรณ์ที่ใช้ในการจัดเก็บข้อมูลของเราเริ่มจะไม่เพียงพอ หรือมีที่ว่างเหลือน้อย นั่นหมายถึงว่า เรามีปริมาณข้อมูลที่มากจนจะรับไม่ไหว

V2: Velocity— อัตราการเพิ่มของข้อมูลที่เพิ่มขึ้นอย่างรวดเร็ว ข้อมูลที่ไหลเข้ามาในระบบและถูกจัดเก็บไว้มีแนวโน้มที่จะเพิ่มขึ้นอย่างรวดเร็ว เช่น ในแต่ละเวันมีข้อมูลเพิ่มขึ้นเป็น 2 เท่าของเมื่อวาน อัตราการเติบโตแบบนี้จะมีลักษณะเป็นแบบ exponential ทำเกิดปัญหาที่จัดเก็บข้อมูลไม่เพียงพอในเวลาอันรวดเร็ว

V3: Variety — ความหลากหลายของข้อมูล มีข้อมูลในระบบอยู่หลายรูปแบบ (format) ทั้งเป็นโครงสร้าง (เช่น relational database) กึ่งโครงสร้าง (xmlหรือ json format) และไม่เป็นโครงสร้าง (ไฟล์ต่างๆเช่น text file, image files หรือ audio files) ทำให้จัดการได้ยากลำบาก ต้องใช้โปรแกรมหรือเครื่องมือที่หลากหลาย เพื่อเข้าถึงข้อมูลที่มีต่างรูปแบบกัน

V4: Veracity— ความน่าเชื่อถือของข้อมูล เนื่องจากความหลากหลายของข้อมูล และมีที่มาที่แตกต่างกัน ทำให้ข้อมูลบางอย่าง อาจจะเป็นข้อมูลเท็จ หรือเป็น ข้อมูลที่ไม่มีประโยชน์ นำมาใช้งานไม่ได้ เช่น spam mail ที่ส่งเข้ามาในระบบหรือ ข้อความ post ที่มาจาก Ad bot เพื่อโฆษณาขายสินค้า เป็นต้น

จากทั้ง 4 V ที่กล่าวมาข้างต้น ถ้าหน่วยงานของคุณ เจอปัญหา 2 ใน 4 V นี้ แสดงว่า เราอาจจะต้องเริ่มวางแผนเพื่อจัดการกับ Big Data ได้แล้ว ก่อนที่ทุกอย่างจะสายเกินไป

เตรียมรับมือกับ Big Data

เมื่อเรากำลังเผชิญกับ Big Data เราควรจะมีแผนเพื่อรับมือกับปัญหาจาก 4V ที่กล่าวมาดังนี้

  1. การรับมือกับ V1 และ V2 (Volume+ Velocity) — จากปัญหาปริมาณและอัตราการโตของข้อมูลที่รวดเร็ว เราควรจะทราบอัตราการโตของข้อมูลในระบบของเราคร่าวๆ ให้ได้เสียก่อน เพื่อจะได้วางแผนการขยายขนาดของหน่วยจัดเก็บข้อมูลได้อย่างถูกต้อง ทั้งการขยายระบบแบบ Horizontal Scale และ ​Vertical Scale

Horizontal Scaling หมายถึง การเพิ่มจำนวน machine หรือ server เครื่องใหม่เข้าไปในระบบ

Vertical Scaling หมายถึง การเพิ่ม power ในที่นี้หมายถึง การเพิ่ม CPU หรือ RAM หรือ Disk เข้าไปใน machine เดิมที่มีอยู่แล้ว

2. การรับมือกับ V3 และ V4 (Variety + Veracity) — การจัดการกับรูปแบบของข้อมูลและความน่าเชื่อถือของข้อมูลนั้น จำเป็นอย่างยิ่งที่จะต้องใช้คน หรือ บุคลากร ที่มีความรู้ความเชี่ยวชาญในการจัดการกับข้อมูลให้อยู่ในรูปแบบที่จัดการและตรวจสอบคัดกรองได้ง่าย ซึ่งปัจจุบันนี้ มีสายงาน IT ที่เรียกว่า นักวิทยาศาสตร์ข้อมูล (Data Scientist)

ทั้งหมดทั้งมวลนั้นเราทำเพื่อให้ได้ V ที่ 5 นั่นคือ VALUE ของข้อมูลนั่นเอง

VALUE — V ตัวที่ 5 และความสำคัญ

Value เป็น V ตัวที่ 5 ที่หลายๆองค์กรที่ทำระบบ Big Data ต้องการ การทำข้อมูลหรือ data ให้มี Value นั้น หมายถึงการนำข้อมูลมาสร้างองค์ความรู้ใหม่ (new knowledge) เพื่อให้ก่อประโยชน์ทั้งทางตรงและทางอ้อมต่อองค์กร เช่น บริษัทให้บริการโทรศัพท์มือถือ จะนำข้อมูลการใช้งานของลูกค้า มาประมวลผลเพื่อให้ได้องค์ความรู้ใหม่ที่ใช้ในการทำการตลาด การออก แคมเปญใหม่ๆ เพื่อเพิ่มยอดขาย เป็นต้น

แล้วจะได้ Value มายังไง

การสร้าง Value จากข้อมูลที่มีอยู่ต้องอาศัยปัจจัยต่างๆ ต่อไปนี้

ปัญหาหรือโจทย์ — จากที่กล่าวไปข้างต้นของบทความนี้ สิ่งแรกที่เราต้องทำก่อนที่จะ implement Big Data คือ เราจะทำไปเพื่อให้ได้อะไร ถ้าเราไม่มีปัญหา เราก็จะไม่มีทิศทาง ไม่มีเป้าหมายที่จะแก้ปัญหา ดังนั้น การสร้าง Value จำเป็นจะต้องตั้งโจทย์หรือปัญหาให้ได้เป็นอันดับแรก เช่น ถ้าคุณเป็นหมอหรือเป็นผู้บริหารโรงพยาบาลแห่งหนึ่ง คุณอาจจะมีโจทย์ว่า “เราจะทำอย่างไร ให้สามารถคัดกรองคนไข้ให้ถูกต้องในเวลาอันรวดเร็ว เพื่อประสิทธิภาพที่ดีในการรักษาของแพทย์ และช่วยให้คนไข้ประหยัดเวลา ไม่ต้องวิ่งไปมาหลายแผนก” เป็นต้น

เครื่องมือและวิธีการ — เมื่อเราตั้งโจทย์หรือปัญหาได้แล้ว ลำดับต่อมาเราต้องมีวิธีการที่จะนำมาแก้ปัญหานั้นๆ รวมทั้งมีเครื่องมือ (software tools) หรือโปรแกรมที่พัฒนาขึ้นเอง เพื่อใช้ในการแก้โจทย์ที่ได้มา เช่น จากปัญหาของโรงพยาบาลเรื่องการคดกรองคนไข้ในข้อที่แล้ว วิธีการแก้ปัญหา อาจจะนำข้อมูลประวัติการรักษาหรือการตรวจคัดกรองผู้ป่วยมาทำเป็นระบบ Expert System เพื่อเป็นแนวทางให้พยาบาลในจุดคัดกรอง สามารถวินิจฉัยอาการเบื้องต้นได้รวดเร็วขึ้น

บุคลากร — เป็นบุคคลหรือกลุ่มคนที่มีความรู้ความเข้าใจปัญหาและสามารถเลือกใช้เครื่องมือหรือวิธีการที่จะนำข้อมูลที่มีอยู่มาสร้างเป็นองค์ความรู้ (knowledge) เพื่อใช้ในการแก้ปัญหาที่องค์กรตั้งโจทย์ไว้ได้ กลุ่มบุคคลเหล่านี้ ส่วนมาจะมีความรู้ในสาขา Data Science หรือ Machine Learning และจำเป็นต้องมีความรู้เกี่ยวกับกิจการหรือหน่วยงานที่ตนเองสังกัดอยู่เป็นอย่างดี เช่น Data Scienctist ที่ทำงานภายในโรงพยาบาลจำเป็นต้องมีความรู้เรื่องการรักษาพยาบาลหรือการวินิจฉัยโรคเบื้องต้น หรือ ถ้าทำงานในบริษัทประกันภัย ก็จำเป็นจะต้องศึกษาวิธีการรับประกันภัยหรือเงื่อนไขการเคลมประกัน เป็นต้น

ถ้าเรา implement ระบบ Big Data แล้วไม่ทำให้เกิด VALUE ก็ไม่ต่างอะไรกับการทำถังขยะใบใหญ่ๆไว้แค่นั้น

สรุป

Big Data คือ ข้อมูลในระบบที่กำลังจะท่วมท้นจนคุณรับไม่ไหว ซึ่งประกอบไปด้วยปัจจัยหลักๆ 4 ปัจจัย ขนาดที่มากขึ้น อัตราการเพิ่มที่รวดเร็ว ความหลกหลาย และความน่าเชื่อถือของข้อมูล ซึ่งถ้าเราจัดการกับ 4 ปัจจัยนี้ได้จะส่งผลให้เรามีศักยภาพที่จะสามารถค้นพบ Value จากข้อมูลเพื่อนำไปใช้ประโยชน์ในองค์กรของคุณต่อไป

อ้างอิง

https://www.ibmbigdatahub.com/sites/default/files/styles/xlarge-scaled/public/infographic_image/4-Vs-of-big-data.jpg

devplanter

เรื่องราวเกี่ยวกับการจัดการข้อมูล การเรียนรู้ของเครื่องจักรและระบบฐานข้อมูลขนาดใหญ่ รวมถึงเทคนิคและการออกแบบสถาปัตนกรรมระบบซอฟต์แวร์

devplanter Team

Written by

devplanter

เรื่องราวเกี่ยวกับการจัดการข้อมูล การเรียนรู้ของเครื่องจักรและระบบฐานข้อมูลขนาดใหญ่ รวมถึงเทคนิคและการออกแบบสถาปัตนกรรมระบบซอฟต์แวร์

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade