K-Means Algorithm
Clustering
Published in
2 min readFeb 29, 2020
กระบวนการของ K-Means Algorithm แบ่งออกเป็น 4 กระบวนการ ดังนี้
1. กระบวนการกำหนดจำนวนกลุ่ม (Cluster)
- เป็นการกำหนด Cluster ให้กับข้อมูลที่ต้องการจะแบ่งกลุ่ม จากตัวอย่างกำหนด Cluster เป็น 3 กลุ่ม คือ K1, K2 และ K3
- Cluster ทั้ง 3 กลุ่มนั้นถูกกำหนดขึ้นโดยการสุ่ม (Random) ข้อมูลขึ้นมา
2. กระบวนการในการคำนวณหาค่าระยะทาง (Distance Value) และกำหนดชุดข้อมูล (Data Point) ให้อยู่ในแต่ละ Cluster
- โดยการคำนวณค่าระยะทางนั้น คำนวณได้จากการนำชุดข้อมูลแต่ละชุด (D1) ไปหาค่าระยะทางกับ Cluster ทั้ง 3 Cluster คือ K1, K2 และ K3 ดังนั้นหาก D1 มีค่าระยะทาง (ค่าน้อยที่สุด) ใกล้กับ Cluster ไหนก็จะถูกกำหนดให้อยู่ใน Cluster นั้น ๆ
3. กระบวนการเปลี่ยนจุดกลาง (Centroid) ของแต่ละ Cluster
- สำหรับการเปลี่ยนจุด Centroid นั้น สามารถทำได้โดยนำข้อมูลทั้งหมดของแต่ละ Cluster มาคำนวณ
- จากรูปภาพตัวอย่าง การคำนวณ Centroid ใหม่ของกลุ่ม K1 ก็จะนำชุดข้อมูลจำนวน 10 ชุด มาหาค่าเฉลี่ย และใช้ค่าเฉลี่ยที่คำนวณได้เป็น Centroid ใหม่ เช่นเดียวกับ K2 ก็จะใช้จำนวน 8 ชุดมาคำนวณ และ K3 ใช้ข้อมูลจำนวน 9 ชุด
- สุดท้ายแล้วทุก Cluster ก็จะถูกปรับเปลี่ยน Centroid ใหม่
4. กระบวนการคำนวณเพื่อเปลี่ยนค่า Centroid
- ในกระบวนการนี้จะย้อนกลับไปในกระบวนการที่ 2 และ 3 เพื่อคำนวณหาค่า Distance ระหว่างข้อมูลชุด Centroid ของแต่ละ Cluster และปรับเปลี่ยนค่า Centroid
- โดยจะทำไปเรื่อย ๆ จนไม่มีชุดข้อมูล หรือสมาชิก (Member) ไหนเปลี่ยนกลุ่ม
- ซึ่ง Centroid ที่ปรับปรุงล่าสุดจะถูกนำไปใช้เป็น Model ของ K-Means ในการคำนวณกับข้อมูลชุดใหม่ หรือ Unknown data ต่อไป