Clustering : เครื่องมือสุดมหัศจรรย์ของ Data Scientist

การวิเคราะห์ข้อมูลอะไรที่ง่าย ไม่ซับซ้อน แต่เห็นผลลัพธ์ชัดเจน ก็น่าจะเป็นการแบ่งกลุ่ม หรือ Clustering

ถ้าพูดในให้ง่ายๆ ตามภาษา Business ก็คือ การทำ Segmentation

การทำ Clustering หรือ Segmentation ก็เป็นการเอาข้อมูลมาแบ่งกลุ่ม จัดหมวดหมู่ ในของที่หน้าตาเหมือนกันอยู่ด้วยกัน อะไรที่ไม่เหมือนกัน ก็แบ่งไว้เป็นกลุ่มอื่น

สิ่งที่เราจะต้องตั้งสติ ในการทำ Clustering นั้น มีดังนี้

  1. Unit of Analysis: กำหนด Unit หรือ Entity ที่ต้องการแบ่งกลุ่ม เช่น Customer, Store, Product หรือ อื่นๆ
  2. Key Variables: ตัวแปรที่จะเอามาแบ่งกลุ่ม เช่น พฤติกรรมการซื้อของ การตอบสนองต่อส่วนลด

เทคนิคนี้เป็นการวิเคราะห์ที่เราเรียกกันว่า Unsupervised Learning หรือ เรียนรู้โดยที่ไม่รู้มาก่อนว่าผลลัพธ์ควรเป็นอะไร เพราะฉะนั้น เวลารอลุ้นผลก็จะตื่นเต้นเหมือนเล่นหวยตลอดเวลา

ความยากลำบากของการทำ Clustering ก็คือ เราจะต้องสรุปคุณลักษณะหรือพฤติกรรมต่างๆ ของ Entity ที่เราต้องการแบ่งกลุ่มออกมา ให้เหลือ 1 Entity — 1 Record เท่านั้น …. เพราะฉะนั้น ลองจิตนาการดูว่า ลูกค้า 1 คน อาจจะเคยซื้อมาหลายร้อยหลายพันครั้ง ก็ต้องเขียนโปรแกรมสรุปพฤติกรรมออกมาให้ได้ (บางทีก็เตรียมข้อมูลอยู่หลายวันมากกกก)

พอได้ข้อมูลที่พร้อมเรียบร้อย ก็เอาไป Run กับ Algorithm (ชอบคำนี้ ใช้แล้วดูว่าเราฉลาดดี) ให้ทำการแบ่งกลุ่มออกมา เราก็จะเจอผลลัพธ์ที่น่าตื่นตะลึง เราจะพบว่ามีลูกค้าชั้นดีอยู่เพียงแค่หยิบมือ ลูกค้าจำนวนมากมายนั้นส่วนมากซื้ออยู่นิดๆ หน่อยๆ

สิ่งมหัศจรรย์ของเทคนิคนี้ก็คือ เราไม่รู้เลยว่าผลลัพธ์จะออกมาอย่างไร แต่เมื่อออกมาแล้ว ก็ลุ้นต่อว่า เราจะอธิบายผลลัพธ์นี้ได้ขนาดไหน แล้วจะเอาไปใช้ประโยชน์ได้อย่างไร