Data Science

5 Cluster analysis ที่คนเรียน Data Science ต้องรู้

Published in

Achieve Space

2 min readAug 20, 2020

วันนี้เราจะมาพูดถึงการวิเคราะห์แบบจัดกลุ่ม Clustering ซึ่งเป็นประเภทการแก้ปัญหาของ Unsupervised Learning ที่ช่วยให้ชีวิตของ Data Scientist ง่ายขึ้นไม่มากก็น้อย เพราะจะช่วยให้มองเห็นแพทเทิร์นที่ซ่อนอยู่ในชุดข้อมูล และเป็นหนึ่งในขั้นตอนสำคัญของการทำงานของ Data Scientist ขั้นตอนการสำรวจชุดข้อมูล (Data exploration and analysis) และมี 5 อัลกอริทึมที่เหล่า Data Scientist มือโปรนิยมใช้ในการทำ Clustering analysis

📊 K-Means Clustering

การจัดกลุ่มโดยมี Center Point เป็นศูนย์กลาง ยิ่งข้อมูลที่อยู่ใกล้กับ Center point มากเท่าไหร่ แสดงว่าข้อมูลนั้นมีโอกาสเป็นกลุ่มเดียวกันมากกว่า และจะมีกี่ Center point ก็ขึ้นอยู่กับเรา เพียงแต่จำนวนครั้งของการแรนดอม Center point และจำนวนครั้งการคำนวณจะช่วยให้เราเห็นการจัดกลุ่มที่ชัดเจนขึ้น

📊 Mean-Shift Clustering

คล้ายกับ K-Means อยู่ตรงที่มีจุด Center point ใกล้กับจุดข้อมูลที่หนาแน่น แต่จะต่างกันตรงที่ Mean-Shift Clustering ไม่จำเป็นต้องแรนดอมจำนวนจุด Center point เพราะตัวอัลกอริทึมจะย้ายจุด Center point ตามทิศทางค่า Mean ของข้อมูลที่กระจุกกันหนาแน่นในรัศมีที่กำหนด เปรียบเทียมให้เห็นภาพมากขึ้นคือ Center point เป็นยอดภูเขาโดยกำหนดรัศมีภูเขาเอาไว้ แล้วจะเปลี่ยนทิศทางที่ตั้งยอดภูเขาตามจำนวนต้นไม้(ข้อมูล)ในรอบรัศมีภูเขา

📊 DBSCAN

ย่อมาจาก Density-Based Spatial Clustering of Applications with Noise หรือก็คือเป็นการหาบริเวณที่ข้อมูลเกาะกลุ่มกัน แต่จะแตกต่างกับ Mean-Shift Clustering ตรงที่จะตัด Noise หรือข้อมูลที่แปลกแยกออกไป DBSCAN จะคล้ายกับ Mean-Shift คือมี Center point และรัศมีเพื่อย้ายจุด Center point ต่อ ซึ่งมีตัวแปรรัศมีตัวนี้คือ ค่า ε (เอปไซลอน) และต้องกำหนดจำนวนขั้นต่ำ MinPoint(จำนวนจุดข้อมูลขั้นต่ำ) เพื่อเป็นการเริ่มจัดกลุ่ม

📊 OPTICS

ย่อมาจาก Ordering Points To Identify the Clustering Structure เป็นอัลกอริทึมที่ต่อยอดมาจาก DBSCAN โดยมีหลักความเข้าใจคล้ายกันคือ การหาบริเวณที่ข้อมูลเกาะกลุ่มกันโดยมีรัศมีค่า ε (เอปไซลอน) คล้ายกับ DBSCAN แต่จะมีตัวแปรเพิ่มคือ Core Distance และ Reachability Distance โดย Core Distance จะเป็นค่าต่ำสุดของรัศมีเพื่อจัดกลุ่มจุดข้อมูล และ Reachability Distance คือค่าระยะห่างระหว่างจุดข้อมูล 2 จุดโดยมีจุด p ซึ่งเป็นศูนย์กลางของ Core Distance เป็นตัวตั้งอัลกอริทึมนี้จะช่วยวิเคราะห์ความหนาแน่นได้หลายมิติ มากกว่าที่ DBSCAN ทำได้

📊 Agglomerative Hierarchical Clustering

เป็นหนึ่งในเทคนิคของการทำ Hierarchical Clustering ซึ่งเป็นการจัดกลุ่มออกตามจุดข้อมูลที่ไกล้ที่สุดเรื่อยๆจนเหลืออยู่กลุ่มเดียวอย่างชัดเจน โดยมีผลลัพธ์เป็น Dendrogram รูปแบบรากต้นไม้ ที่แสดงลำดับขั้น ของระดับข้อมูลที่มีส่วนร่วมกัน ซึ่งจะอธิบายความเชื่อมโยงของแต่ละจุดข้อมูล

ขอบคุณข้อมูลจาก:
machinelearningmastery.com
towardsdatascience.com
medium.com/@artificialcc
displayr.com