Data Analytics Life cycle

Panupong Suksuwan
TNI University
Published in
3 min readJun 28, 2019
ที่มา : http://sudeep.co/data-science/Understanding-the-Data-Science-Lifecycle

ในการทำ Data Analysis นั้นจะมี Process นั้นคือ Data Analytics Life cycle

ซึ่ง จะมีทฤษฎีหลักๆ 2 ตัวที่ได้ใช้ร่วมกันคือ

  1. วิธีการทางวิทยศาสตร์ (Scientific Method)
  2. CRISP-DM(Cross-industry standard process for data mining) Method
ที่มา : https://discourse.biologos.org/t/definition-of-science-and-the-scientific-method/40110

วิธีการทางวิทยศาสตร์ (Scientific Method)

เป็นจะมี 5 ขั้นตอน คือ

  1. ตั้งปัญหา หรือ คำถาม(Define Question or Problem) : การที่จะตั้งปัญหาหรือข้อสงสัยได้นั้นต้องมาจาก การสังเกต จากประสาทสัมผัสทั้ง 5 ส่วน “จะต้องคำนึงว่าปัญหาเกิดขึ้นได้อย่างไร”
  2. ตั้งสมติฐาน(Hypothesis) : สมมติฐาน คือ คำตอบที่อาจเป็นไปได้ และคำตอบที่ยอมรับว่าถูกต้องเชื่อถือได้ เมื่อมีการพิสูจน์ หรือตรวจสอบหลาย ๆ ครั้ง
  3. ทดลอง(Experiment) : ในทาง Data Science นั้นจะหมายถึง Gather/Generate data
  4. วิเคราะห์ข้อมูล(Analysis data):นำ Data ที่ได้มานั้นมาหา Insight หรือข้อสรุป

5. หาข้อสรุป(Conclusion) : หาข้อสรุปจากการทำ Data Analysis มาใช้เพื่อประกอบการตัดสินใจ หรือ Take action

ที่มา : http://businessoverbroadway.com/wp-content/uploads/2017/10/ScientificMethodMetis.png

จากวิธีการทางวิทยาศาสตร์นั้น คำว่า Data Science นั้นใช้คำซ้ำกันเกินไป
เนื่องจาก Science นั้นต้องใช้ข้อมูลอยู่แล้ว
เพื่อทำการทดสอบข้อสันนิษฐานและแนวคิดต่าง ๆ
นั่นคือ Data หรือข้อมูล คือหัวใจของ Science
ดังนั้น Data Science คือ Science

CRISP-DM(Cross-industry standard process for data mining)

จะมี 6 ขั้นตอนคือ

ที่มา : https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html
  1. การทำความเข้าใจธุรกิจ (Business Understanding): เป็นขั้นตอนแรกในกระบวนการ CRISP-DM ซึ่งเน้นไปที่การเข้าใจปัญหาและแปลงปัญหาที่ได้ให้อยู่ในรูปโจทย์ของการวิเคราะห์ข้อมูลทาง Data Mining พร้อมทั้งวางแผนในการดำเนินการคร่าวๆ ตัวอย่างการนำเทคนิคดาต้า ไมน์นิ่งไปใช้ในการวิเคราะห์ดัานต่างๆ
  2. การทำความเข้าใจข้อมูล (Data Understanding): ขั้นตอนนี้เริ่มจากการเก็บรวบรวมข้อมูล หลังจากนั้นจะเป็นการตรวจสอบข้อมูลที่ได้ทำการรวบรวมมาได้เพื่อดูความถูกต้องของข้อมูล พิจารณาว่าจะใช้ข้อมูลทั้งหมดหรือจำเป็นต้องเลือกข้อมูลบางส่วนมาใช้ในการวิเคราะห์ และ พิจารณาว่าข้อมูลที่จะนำมาใช้นั้นเพียงพอไหมในการวิเคราะห์
  3. การเตรียมข้อมูล (Data Preparation): ขั้นตอนนี้เป็นขั้นตอนที่ทำการแปลงข้อมูลที่ได้ทำการเก็บรวบรวมมา (Raw data) ให้กลายเป็นข้อมูลที่สามารถนำไปวิเคราะห์ในขั้นถัดไปได้ รวมไปถึงการทำให้ Unstructured Data ทำเป็น Structured Data โดยการแปลงข้อมูลนี้อาจจะต้องมีการทำข้อมูลให้ถูกต้อง (Data cleaning) โดยขั้นตอนนี้จะเป็นขั้นตอนที่ใช้เวลามากที่สุดของกระบวนการ CRISP-DM
  4. การสร้างแบบจำลอง (Modeling): ขั้นตอนนี้จะเป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคทาง Machine Learning หรือ Data mining ที่ได้พูดถึงบทความเรื่องของ Introduction ซึ่งในขั้นตอนนี้หลายเทคนิคจะถูกนำมาใช้เพื่อให้ได้คำตอบที่ดีที่สุด ดังนั้นในบางครั้งอาจจะต้องมีการย้อนกลับไปที่ขั้น ตอน Data Preparationเพื่อแปลงข้อมูลบางส่วนให้เหมาะสมกับแต่ละเทคนิคด้วย ตัวอย่างเทคนิคในการวิเคราะห์ข้อมูลต่างๆ เช่น

-การแบ่งกลุ่มข้อมูล (Clustering)

-การหากฏความสัมพันธ์ (Association Rules)

-การจำแนกประเภทข้อมูล (Classification)

ที่มา : http://dataminingtrend.com/2014/data-mining-techniques/crisp-dm-example/

5. การประเมินผล (Evaluation):ขั้นตอนนี้เราจะได้ผลการวิเคราะห์ข้อมูลด้วยเทคนิคทางดาต้า ไมน์นิงแล้วแต่ก่อนที่จะนำผลลัพธ์ที่ได้ไปใช้งานต่อไปก็จะต้องมีการวัดประสิทธิภาพของผลลัพธ์ที่ได้ว่าตรงกับวัตถุประสงค์ที่ได้ตั้งไว้ในขั้นตอนแรก หรือ มีความน่าเชื่อถือมากน้อยเพียงใด ซึ่งอาจจะย้อนกลับไปยังขั้นตอนก่อนหน้าเพื่อเปลี่ยนแปลงแก้ไขเพื่อให้ได้ผลลัพธ์ตามที่ต้องการได้ สำหรับการสร้างโมเดลด้วยเทคนิค Classification มีการทดสอบประสิทธิภาพของโมเดลอยู่ 3 แบบใหญ่ คือ

  • Self-consitency test
  • Split test
  • Cross-validation test

6. การนำไปใช้งานหริอนำไปเสนอ(Deployment /Communicate ): ในกระบวนการทำงานของ CRISP-DM นั้นไม่ได้หยุดเพียงแค่ผลลัพธ์ที่ได้จากการวิเคราะห์ข้อมูลด้วยเทคนิคทางดาต้า ไมน์นิงเท่านั้น แม้ว่าผลลัพธ์ที่ได้จะแสดงถึงองค์ความรู้ที่มีประโยชน์ แต่จะต้องนำองค์ความรู้ที่ได้เหล่านี้ไปใช้ได้จริงในองค์กรหรือบริษัท ตัวอย่างเช่น การสร้างรายงานนำเสนอ เพื่อให้ผู้บริหารหรือนักการตลาดเข้าใจได้ง่ายและสามารถนำไปออกโปรโมชั่นได้

ที่มา : https://www.youtube.com/watch?v=CRKn-9gVNBw

Note ! :

อธิบายเพิ่มเติมเกี่ยวกับ CRISP-DM ขั้นตอนที่ 4 Evaluation

การทดสอบประสิทธิภาพของโมเดลอยู่ 3 แบบใหญ่ คือ

ที่มา : http://dataminingtrend.com/2014/data-mining-techniques/cross-validation/

1.Self Consistency Test

Self Consistency Test หรือบางครั้งเรียกว่า Use Training Set นี้เป็นวิธีการที่ง่ายที่สุด นั่นคือ ข้อมูลที่ใช้ในการสร้างโมเดล (Model) และข้อมูลที่ใช้ในการทดสอบโมเดลเป็นข้อมูลชุดเดียวกัน กระบวนการนี้เริ่มจาก สร้างโมเดลด้วยข้อมูล Training data หลังจากนั้นนําโมเดลที่สร้างได้มาทํานายข้อมูล Training data ชุดเดิม ตัวอย่างเช่นจากรูป นําข้อมูลเทรนนิง ดาต้า ในตาราง มาสร้างโมเดลและทดสอบโมเดลเป็นต้น การวัด ประสิทธิภาพด้วยวิธีนี้จะให้ผลการวัดประสิทธิภาพที่มีค่าสูงมาก (อาจจะเข้าใกล้ 100%) เนื่องจากเป็นข้อมูล ชุดเดิมที่ระบบได้ทําการเรียนรู้มาแล้ว แต่ผลการวัดที่ได้ไม่เหมาะที่จะนําไปรายงานในงานวิจัยต่างๆ ซึ่งวิธี การนี้เหมาะสําหรับใช้ในการทดสอบประสิทธิภาพเพื่อดูแนวโน้มของโมเดลที่สร้างขึ้น ถ้าได้ผลการวัดที่น้อย แสดงว่าโมเดลไม่เหมาะสมกับข้อมูล จึงไม่ควรจะนําไปทดสอบด้วยวิธีการแบ่งข้อมูลแบบต่างๆ

ที่มา : http://dataminingtrend.com/2014/data-mining-techniques/cross-validation/

2. Split Test

วิธี Split Test เป็นการ แบ่งข้อมูลด้วยการสุ่มออกเป็น 2 ส่วน เช่น 70% ต่อ 30% หรือ 80% ต่อ 20% โดยข้อมูลส่วนที่หนึ่ง (70% หรือ 80%) ใช้ในการสร้างโมเดลและข้อมูลส่วนที่สอง (30% หรือ 20%) ใช้ใน การทดสอบประสิทธิภาพของโมเดล ตัวอย่างเช่นในรูป แบ่งข้อมูล Training data ในตารางออกเป็น 2 ตัวอย่างสำหรับการสร้างโมเดลและข้อมูล 1 ตัวอย่างใช้ในการทดสอบ ประสิทธิภาพของโมเดล เป็นต้น แต่การทดสอบแบบ Split Test นี้ทําการสุ่มข้อมูลเพียงครั้งเดียวซึ่งในบาง ครั้งถ้าการสุ่มข้อมูลที่ใช้ในการทดสอบที่มีลักษณะคล้ายกับข้อมูลที่ใช้สร้างโมเดลทําให้ผลการวัด ประสิทธิภาพได้ออกมาดี ในทางตรงข้ามถ้าการสุ่มข้อมูลที่ใช้ในการทดสอบที่มีลักษณะแตกต่างกับข้อมูลที่ ใช้สร้างโมเดลมากทําให้ผลการวัดประสิทธิภาพได้ออกมาแย่ ดังนั้นจึงควรใช้วิธี Split Test นี้หรือทําการสุ่ม หลายๆ ครั้ง แต่ข้อดีของวิธีการนี้คือใช้เวลาในการสร้างโมเดลน้อยซึ่งเหมาะกับชุดข้อมูลที่มีขนาดใหญ่มาก

3. Cross-validation Test

วิธีนี้เป็นวิธีที่นิยมในการทำงานวิจัย เพื่อใช้ในการทดสอบประสิทธิภาพของโมเดลเนื่องจากผลที่ได้มีความน่าเชื่อถือ การวัด ประสิทธิภาพด้วยวิธี Cross-validation นี้จะทําการแบ่งข้อมูลออกเป็นหลายส่วน (มักจะแสดงด้วยค่า k) เช่น 5-fold cross-validation คือ ทําการแบ่งข้อมูลออกเป็น 5 ส่วน โดยที่แต่ละส่วนมีจํานวนข้อมูลเท่ากัน หรือ 10-fold cross-validation คือ การแบ่งข้อมูลออกเป็น 10 ส่วน โดยที่แต่ละส่วนมีจํานวนข้อมูลเท่ากัน หลัง จากนั้นข้อมูลหนึ่งส่วนจะใช้เป็นตัวทดสอบประสิทธิภาพของโมเดล ทําวนไปเช่นนี้จนครบจํานวนที่แบ่งไว้ เช่น การทดสอบด้วยวิธี 5-fold cross-validation

Preference :

Cross-industry standard process for data mining

  • https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining

Understanding the Data Science Lifecycle

  • http://sudeep.co/data-science/Understanding-the-Data-Science-Lifecycle/

การทำเหมืองข้อมูล (Data Mining) คืออะไร?

  • https://worasupa688.wordpress.com/2018/07/06/data-mining-for-library/

สรุปเรื่อง The Practice of Data Science

  • http://www.somkiat.cc/the-practice-of-data-science/

Introduction to CRISP-DM

  • https://www.youtube.com/watch?v=CRKn-9gVNBw

กระบวนการวิเคราะห์ข้อมูลด้วย CRISP-DM และตัวอย่างการประยุกต์ใช้ทางด้านการศึกษา

  • http://dataminingtrend.com/2014/data-mining-techniques/crisp-dm-example

การแบ่งข้อมูลเพื่อนำทดสอบประสิทธิภาพของโมเดล

  • http://dataminingtrend.com/2014/data-mining-techniques/cross-validation/

--

--