Data Science
รู้จัก 3 คอนเซ็ปสถิติพื้นฐาน ห่างไกลคำว่า Beginner
Data Scientist หลายคนก็เคยเป็นนักสถิติมาก่อน ซึ่งก็ไม่แปลก เพราะศาสตร์ Data Science ล้วนต้องทำงานกับข้อมูลอันมหาศาลอยู่แล้ว โดยเฉพาะอย่างยิ่งในขั้นตอนของการทำ Data Exploration & Analysis (การวิเคราะห์และสำรวจข้อมูล) ซึ่งถ้าหากผู้อ่านยังจำได้ เป็นหนึ่งในขั้นตอนพื้นฐานการทำงานของเหล่า Data Scientist
สำหรับผู้อ่านที่ยังไม่คุ้นเคย เดี๋ยว Achieve Plus จะขยายความเพิ่มให้ในบล็อกด้านล่างนี้ หากว่าผู้อ่านมีความรู้มาก่อนแล้ว สามารถข้ามได้เลย
ขั้นตอนในการทำงานของ Data Scientist โดยทั่วไปแล้วจะแบ่งออกเป็นทั้งหมด 6 ขึ้นตอนตามนี้
1 — เข้าใจปัญหาหรือความต้องการธุรกิจที่ต้องการจะแก้ (Define Problem Statement/ Business Requirement)
ต้องเข้าใจปัญหาหรือความต้องการธุรกิจอย่างแท้จริงเพื่อให้สามารถหาวิธีแก้ปัญหาได้อย่างแม่นยำ
2 — การเก็บข้อมูล (Data Collection)
หาวิธีเก็บข้อมูลที่ต้องการเพื่อให้ได้ข้อมูลที่จำเป็นสำหรับนำไปวิเคราะห์และเขียนโมเดลต่อ
3 — การทำความสะอาดข้อมูล (Data Cleaning)
การทำความสะอาดข้อมูลประกอบไปด้วยการลบข้อมูลที่ซ้ำซ้อน ขาดหาย ซ้ำซ้อนและไม่จำเป็น
4 — การวิเคราะห์และสำรวจข้อมูล (Data Exploration & Analysis)
วิเคราะห์ข้อมูลเชิงลึก มองหาทุกช่องโหว่ ทุกแพทเทิร์น และเทรนด์ต่างๆของข้อมูล
5 — การเขียนโมเดล (Data Modelling)
ขั้นตอนการเขียนโมเดลเพื่อให้ตอบโจทย์กับคำถาม/ปัญหาที่คุณตั้งเอาไว้
6 — ปล่อยโมเดล และคอยปรับปรุงเพื่อเพิ่มประสิทธิภาพ (Deployment & Optimization)
ปล่อยโมเดลสู่การใช้งานจริง และในขณะเดียวกันก็คอยปรับปรุงและเพิ่มประสิทธิภาพของโมเดลอยู่เรื่อยๆ
ถึงแม้ว่าเราจะบอกว่าเป็นขั้นตอนการวิเคราะห์ข้อมูลก็ตาม แต่ก็ไม่ได้เป็นเพียงแค่การตั้งสมมติฐานทั่วไป แต่ต้องเจาะลึกมากกว่านี้
วันนี้ Achieve Plus อยากมาเสนอ 3 คอนเซ็ปพื้นฐานของสถิติ ที่จะช่วยให้การทำการวิเคราะห์และสำรวจข้อมูลไม่ยากเกินไป
1. คุณสมบัติทางสถิติ (Statistical features)
หากผู้อ่านยังขำวิชาสถิติที่เคยเรียนมาได้ น่าจะคุ้นเคยกับคอนเซ็ปนี้ และนี่ก็เป็นสิ่งแรกๆที่เหล่า Data Scientist ใช้เพื่อเข้าใจข้อมูล คอนเซ็ปนี้ประกอบด้วย ค่า mean median minimum maximum โดยการใช้คอนเซ็ปนี้เพื่อเข้าใจข้อมูลนั้น เหล่า Data Scientist อาจใช้ Boxplot ซึ่งมาหน้าตาคล้ายกับ Candlestick แต่แตกต่างกันในข้อมูลที่ต้องการจะสื่อ โดยกล่องตรงกลางใน Boxplot จะแบ่งเป็น percentile 25% เริ่มต้น แล้วนับขึ้นไป การตรวจดูข้อมูลแบบนี้จะช่วยให้มองเห็นภาพรวมของข้อมูล ยกตัวอย่างเช่น หากว่า Boxplot ของข้อมูลสั้น นั่นแปลว่าข้อมูลคล้ายกัน หากค่า median อยู่ชิด minimum หรือ maximum นั่นแสดงว่าข้อมูลอาจจะมีความ bias อยู่
2. การกระจายของค่าความน่าจะเป็น (Probability distribution)
มั่นใจว่าทุกคนคุ้นเคยกับข้อนี้ และนี่ก็เป็นอีกหนึ่งคอนเซ็ปที่ช่วยให้ Data Scientist ทำงานง่ายขึ้น โดยการกระจายที่จะเน้นใช้ มีอยู่ 3 ประเภท แต่กระนั้น ก็ขึ้นอยู่กับความยากของโจทย์หรือปัญหาที่ต้องการจะแก้
- การกระจายแบบมีรูปแบบแน่นอน (Uniform distribution)
- เหตุการณ์ทั้งหมดมีโอกาสเกิดได้เท่าๆกันเปรียบเทียบให้เข้าใจก็คือ ข้อมูลเช่น การเปิด/ปิด คือเป็น 0 หรือ 1
- การกระจายแบบปกติ (Normal distribution) — เป็นการกระจายที่ทุกคนรู้จักแน่นอน โดยมีค่า mean เป็นตัวตั้งและมีส่วนเบี่ยงเบนมาตรฐานเป็นค่าการกระจาย
- การกระจายแบบพอยซองน์ (Poisson distribution) — มีความคล้ายคลึงกับการกระจายแบบปกติอยู่แต่จะมีปัจจัยของความเบ้ (skewness) เพิ่ม หากค่าความเบ้ต่ำจะมีการกระจายค่อนข้างสม่ำเสมอในทุกทิศทางแบบเดียวกับการกระจายแบบปกติ แต่เมื่อค่าความเบ้สูงขนาดของข้อมูลจะแตกต่างกันในทิศทางที่แตกต่างกัน
3. การลดขนาด (Dimensionality reduction)
ชุดข้อมูลที่เราได้รับมาอาจมาพร้อมหลายมิติ ซึ่งเราอาจไม่จำเป็นต้องวิเคราะห์ทุกมิติ เลือกเฉพาะมิติที่จำเป็นจริงๆ ซึ่งสามารถใช้การวิเคราะห์องค์ประกอบหลัก (Principle component analysis) การหาจุดข้อมูลของหลายๆมิติที่มีระยะห่างเฉลี่ยน้อยที่สุด เพื่อเป็นเส้น’ที่เหมาะสมที่สุด’ การทำแบบนี้จะชี้ให้เราเห็นว่าเราควรไปวิเคราะห์ในมิติไหน และละเลยข้อมูลมิติที่ไม่ห่างไกลจากเส้นที่เหมาะสมที่สุดออกไป
นี่เป็นเพียงคอนเซ็ปพื้นฐานที่เหล่า Data Scientist ใช้เพื่อวิเคราะห์และสำรวจข้อมูล ในการทำงานจริงๆอาจจำเป็นต้องใช้เทคนิคและคอนเซ็ปมากกว่านี้ แต่นี่ก็ทำให้เห็นว่า การวิเคราะห์ข้อมูลนั้นสนุกแค่ไหนแล้ว
ขอบคุณข้อมูลจาก
dataiku.com
towardsdatascience.com