สรุป Big Data Analytics by IMC Institute

25/08/2560 วันนี้เจ้านายส่งมาอบรม Big Data เบื้องต้นสอนโดย ดร.ธนชาติ นุ่มนนท์ จากสถาบัน IMC เลยมาทำสรุปให้อ่านกันเล่นๆ

Source: https://www.bernardmarr.com/img/blog/what-is-big-data.png

เปิดมา อ.ผู้สอนบอกว่า วันนี้จะไม่มีเขียนโค้ด !! #อ้าวว นี่รอเรียนเลย ไม่มีซะงั้น 555+ วันนี้เลยเป็นแค่ concepts ทั่วไปและพวก use cases ที่น่าสนใจ

“Big data is sexy. Data scientists are the unicorns.”

แล้ว big data คืออะไร? คนพูดกันเยอะมาก แต่จริงๆแล้วมันคืออะไรนะ? หลายคนชอบเปิดมาที่เรื่องของ 4V’s (lecture วันนี้ก็เหมือนกัน) ประกอบด้วย

  • Volume ปริมาณข้อมูลที่ใหญ่กว่าสมัยก่อนมาก อ้างอิงจาก IBM เค้าบอกว่าข้อมูลที่เกิดขึ้นบนโลกใบนี้ทั้งหมดประมาณ 90% ถูกสร้างขึ้นในช่วง 2–3 ปีที่ผ่านมาเอง ต้องกราบขอบคุณวิวัฒนาการของคอมพิวเตอร์และกระบวนการ digitization ที่เปลี่ยนข้อมูลต่างๆให้อยู่ในรูป digital format ที่คอมพิวเตอร์เข้าใจและวิเคราะห์ได้
  • Variety ความหลากหลายของข้อมูลที่เก็บมา ตอนนี้ข้อมูลส่วนใหญ่ไม่ได้เก็บใน table ง่ายๆเหมือนแต่ก่อนแล้ว แต่เป็น unstructured data ที่มาในรูปแบบของ text, video, audio เป็นต้น ตัวอย่างง่ายๆคือ facebook posts / comments / twitters / youtube videos ฯลฯ
  • Velocity ความรวดเร็วของข้อมูลที่ถูก generated ขึ้นมา โดยเฉพาะพวก sensor รูปแบบต่างๆ เช่น fitness tracker / smart watch / mobile phone <GPS>
  • Veracity เกี่ยวข้องกับเรื่องของ noise / bias ที่มาพร้อมกับข้อมูล พอข้อมูลมีใหญ่มาก การทำความสะอาดข้อมูลและเลือกใช้ข้อมูลที่ถูกต้องเป็นเรื่องสำคัญมาก และเป็น challenge ของ big data analyst ทุกวันนี้เลย การมีข้อมูลเยอะไม่ได้แปลว่าจะแก้ปัญหาทั้งหมดของเราได้เสมอไป

ทั้ง 4V’s รวมตัวกัน เกิดเป็น V ตัวที่ห้าคือ ‘Value’ โคตรตัวอย่างที่ได้ยินกันเยอะมากคือ Google Flu Trends ที่ Google ใช้ search terms ที่คนเสิชหาในเว็บของเค้าในการพยากรณ์ว่าพื้นที่ใดเกิดโรคไข้หวัดระบาดบ้าง อยู่ดีๆข้อมูล search terms ที่ถูกเก็บอยู่เฉยๆใน data warehouse ก็เกิดประโยชน์ซะงั้น <create values>

เปรียบเทียบ Google Flu Trend กับข้อมูลผู้ป่วยจริงของประเทศแคนาดา, Source: http://blog.iridiamedical.com/tag/h1n1/

#อัพเดท ตอนนี้ Google นางปิดให้บริการ GFT ไปแล้ว หลังจากโดนนักวิชาการโจมตีว่าโมเดลพยากรณ์ผิดพลาดไปเยอะเลย ._. แต่ต้องยอมรับจริงๆว่า Google ได้สร้างแรงบันดาลใจ และเป็นผู้บุกเบิกการใช้ Big Data ให้เกิดประโยชน์อย่างแท้จริง


Big Data กลายเป็นสิ่งที่ทุกธุรกิจต้องมีได้อย่างไร?

เทคโนโลยีสมัยใหม่เป็นแรงผลักดันสำคัญให้สังคมเข้าสู่ยุค Big Data จริงๆ ปัจจัยหลักที่ช่วยให้ Big Data Analytics เติบโตอย่างรวดเร็วคือ

  1. Storage Cost การเก็บข้อมูลถูกลงกว่าเดิมมาก ทุกวันนี้เรามี cloud storage ใช้กันแล้วจ้า ผู้เล่นใหญ่ๆในตลาดมาครบเลยทั้ง Microsoft Azure, Google Cloud, Amazon Web Services (AWS)
  2. CPU Cost คอมพิวเตอร์แรงขึ้นทุกวัน สมัยก่อนคอมเครื่องใหญ่เท่าบ้านประมวลผลเท่าไมโครเวฟ 555+ เด๋วนี้คอมขนาดเล็กลง พร้อมพลังการประมวลผลที่เยอะขึ้น ใน consumer market เราก็เห็น intel เปิดตัว core ใหม่ๆเต็มเลย ตอนนี้ขึ้นไปถึง core i9 ต่อไปใครๆก็คงทำ Big Data ได้ไม่ยาก
  3. Bandwidth Cost ราคาของการถ่ายโอนข้อมูลผ่านระบบ cloud ลดลงเรื่อยๆ จากหลักร้อยเหลือหลักสตางค์ (เรามาถึงจุดนี้ได้ยังไง) 555+ ลองดูราคา bandwidth ของ Azure ได้ที่ลิ้งนี้เลย
  4. Network Access ต่อเนื่องมาจากข้อสาม การที่ราคา bandwidth ถูกลงเป็นเพราะคนเข้าถึงอินเตอร์เน็ตได้มากขึ้น จำนวน server ที่มากขึ้น เน็ตเร็วขึ้นทุกวัน ราคาก็ถูกลง ผลพลอยได้จากการแข่งขันของพวก network operators ต่างๆ

“Without big data analytics, companies are blind and deaf.”

ที่เขียนมายืดยาว สรุปสั้นๆว่า Big Data NOW !! เพราะว่า ต้นทุนการทำ Big Data มันถูกลงมาก #เรื่องเงินนี่เอง และ disruptive technology แบบใหม่ที่ช่วยให้การทำงานกับข้อมูลขนาดใหญ่เป็นเรื่องง่ายขึ้น e.g. Hadoop, MapReduce, Spark, MongoDB และอีกมากมาย


Data Lake คืออะไร?

Lake Como source: http://www.thomsonlakes.co.uk/dbimages/asset/Large/v00/997/999.jpg

Data Lake เกิดขึ้นมาเพื่ออุดช่องโหว่ของ Traditional Data Warehouse แบบเก่าที่เก็บได้แต่ structured data เหมือนพวกตาราง Excel ที่ต้องคลีนสะอาดเรียบร้อยแล้วเท่านั้น เพื่อให้ทีม business intelligence (BI) ดึงข้อมูลไปทำ report ต่อไป

ส่วน Data Lake เราจะโยนข้อมูลอะไรลงไปก็ได้ ทั้ง structured และ unstructured data เก็บได้หมดทุกแบบตั้งแต่ raw ยัน clean แล้ว ตอบโจทย์เรื่อง Variety ของ Big Data Concept และยัง scale (ขยาย storage) ได้ง่ายกว่า Data Warehouse แบบเดิม

ส่วนใหญ่ (แต่ไม่ทั้งหมด) Data Lake ถูกสร้างขึ้นบน Hadoop Technology และใช้พวก open source software ต่างๆในการดึงข้อมูล ไม่จำกัดเฉพาะ SQL ซึ่งถือเป็นข้อดีของ Data Lake เลย

ปล. Data Scientists ส่วนใหญ่เหมือนจะชอบ Data Lake มากกว่า Data Warehouse อีกด้วย เพราะสามารถลงไปว่ายน้ำเล่นได้เลย อยากได้ไรก็ query > prepare (clean) > build model > test hypothesis > validate > deploy :D วนลูปไปฮะ

Hadoop Technology คืออะไร?

Data Engineer and Hadoop Techonology Source: https://i.ytimg.com/vi/6zTc2hD2npA/maxresdefault.jpg

ใครอยากมาสาย Big Data คงหนีไม่พ้น Hadoop แน่นอน เครื่องมือหลักๆของ Hadoop Technology มีอยู่สามอย่าง คือ

  1. HDFS (Hadoop Distributed File System) กระจายข้อมูลของเราไปที่คอมพิวเตอร์หลายๆเครื่อง ที่มาของคำว่า Distributed
  2. YARN (Yet Another Resource Negotiator) ตัวนี้ง่ายๆคือ resource management ที่เราใช้ตรวจสอบ CPU, RAM, และ disk space ของระบบ HDFS ที่เราสร้างขึ้นมา
  3. MapReduce คือ programming model / framework ที่ใช้ทำงานกับ Big Data เช่นทำ basic quality checking, batch processing, paralell computing เป็นต้น อ่านเพิ่มเติมได้ที่ลิ้งนี้เลย โดย IBM

Hadoop ช่วยให้การประมวลผลข้อมูลทำได้เร็วขึ้นกว่าการใช้ single computer แต่การทำงานก็มีความซับซ้อนขึ้นระดับนึงเลยเพราะ Distributed Systems หรือคอมหลายๆเครื่องที่เรากระจายข้อมูลไป มันต้องติดต่อและทำงานกันแบบเป๊ะมากๆ เหมือนวง Orchesta ที่เล่นดนตรีกันอย่างพร้อมเพรียง ส่วนคนที่ทำหน้าที่ควบคุมจังหวะของวง เราเรียกเขาว่า “Data Engineer

ทุกวันนี้มีผู้ให้บริการ Hadoop Technology หลายเจ้าเลย ที่ดังๆจะมี Cloudera เค้ามีสอนแบบ on-demand training บนเว็บด้วย #แบบเสียเงิน เรียนจบสอบได้ใบเซอร์ แต่ราคาค่อนข้างแพง ใครสนใจลองดูรายละเอียดได้บนเว็บ Cloudera เลยฮะ


ฟรี E-Book เกี่ยวกับ big data

Free download at http://www.oreilly.com/data/free/files/the-big-data-market.pdf

สำหรับเพื่อนๆที่สนใจด้าน data ลองเข้ามาโหลดหนังสือฟรีของ O’Reilly ได้ที่ลิ้งนี้เลย ครอบคลุมเรื่องหลักๆที่ต้องเข้าใจทั้ง data science, big data architecture และ artificial intelligence กราบขอบคุณ O’Reilly มา ณ ที่นี้ด้วยคร้าบ

)

Kasidis Satangmongkol

Written by

I’m just somebody who’s truly passionate about data science.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade