K-Means Algorithm

Clustering

Olarik Surinta
olarik
2 min readFeb 29, 2020

--

K-Means Algorithm

กระบวนการของ K-Means Algorithm แบ่งออกเป็น 4 กระบวนการ ดังนี้

1. กระบวนการกำหนดจำนวนกลุ่ม (Cluster)

  • เป็นการกำหนด Cluster ให้กับข้อมูลที่ต้องการจะแบ่งกลุ่ม จากตัวอย่างกำหนด Cluster เป็น 3 กลุ่ม คือ K1, K2 และ K3
  • Cluster ทั้ง 3 กลุ่มนั้นถูกกำหนดขึ้นโดยการสุ่ม (Random) ข้อมูลขึ้นมา

2. กระบวนการในการคำนวณหาค่าระยะทาง (Distance Value) และกำหนดชุดข้อมูล (Data Point) ให้อยู่ในแต่ละ Cluster

  • โดยการคำนวณค่าระยะทางนั้น คำนวณได้จากการนำชุดข้อมูลแต่ละชุด (D1) ไปหาค่าระยะทางกับ Cluster ทั้ง 3 Cluster คือ K1, K2 และ K3 ดังนั้นหาก D1 มีค่าระยะทาง (ค่าน้อยที่สุด) ใกล้กับ Cluster ไหนก็จะถูกกำหนดให้อยู่ใน Cluster นั้น ๆ

3. กระบวนการเปลี่ยนจุดกลาง (Centroid) ของแต่ละ Cluster

  • สำหรับการเปลี่ยนจุด Centroid นั้น สามารถทำได้โดยนำข้อมูลทั้งหมดของแต่ละ Cluster มาคำนวณ
  • จากรูปภาพตัวอย่าง การคำนวณ Centroid ใหม่ของกลุ่ม K1 ก็จะนำชุดข้อมูลจำนวน 10 ชุด มาหาค่าเฉลี่ย และใช้ค่าเฉลี่ยที่คำนวณได้เป็น Centroid ใหม่ เช่นเดียวกับ K2 ก็จะใช้จำนวน 8 ชุดมาคำนวณ และ K3 ใช้ข้อมูลจำนวน 9 ชุด
  • สุดท้ายแล้วทุก Cluster ก็จะถูกปรับเปลี่ยน Centroid ใหม่

4. กระบวนการคำนวณเพื่อเปลี่ยนค่า Centroid

  • ในกระบวนการนี้จะย้อนกลับไปในกระบวนการที่ 2 และ 3 เพื่อคำนวณหาค่า Distance ระหว่างข้อมูลชุด Centroid ของแต่ละ Cluster และปรับเปลี่ยนค่า Centroid
  • โดยจะทำไปเรื่อย ๆ จนไม่มีชุดข้อมูล หรือสมาชิก (Member) ไหนเปลี่ยนกลุ่ม
  • ซึ่ง Centroid ที่ปรับปรุงล่าสุดจะถูกนำไปใช้เป็น Model ของ K-Means ในการคำนวณกับข้อมูลชุดใหม่ หรือ Unknown data ต่อไป

--

--