Machine Learning กับคณิตศาสตร์มปลาย [02] : Recognize & K-nearest.
ในบทความนี้เราจะมีอธิบายแนวคิดเกี่ยวกับการจดจำหรือการหาว่าข้อมูลที่เรารับมานั้นมีความเหมือนกับข้อมูลที่มีอยู่แล้วตัวไหนบ้างโดยเรียกว่าการ Recognize
เริ่มต้นด้วยการแปะรูปเหมือนเดิม
จากรูปข้างต้นเราสามารถแบ่งกลุ่มออกได้เป็น 3 กลุ่มคือสีน้ำเงิน สีเขียว และสีแดง โดยมีข้อมูลสีดำ ซึ่งเราไม่รู้ว่าอยู่กลุ่มไหน
คำถามคือเราจะรู้ได้ยังไงว่าข้อมูลสีดำ ควรจะเป็นสีอะไร
หนึ่งในคำตอบคือก็ดูตัวที่ใกล้ที่สุดสิ ว่าข้อมูลที่ใกล้ที่สุดเป็นสีอะไร และเราจะหาระยะทางที่ใกล้ที่สุดได้ยังไง คำตอบคือใช้ Euclidean distance
หรือในระนาบ 2 มิติเราเรียกกันว่าหาพีทาโกรัสนั่นเองสูตรใน 2 มิติจะเป็นลักษณะนี้
จากนั้นเมื่อเราวิเคราะห์ด้วยระยะทางแล้วข้อมูลสีดำก็ควรจะเป็นกลุ่มของสีแดง
ลูกเล่นเพิ่มเติมสำหรับการใช้งาน Recognize
บางครั้งเราอาจจะเพิ่มกลุ่มใหม่ของตัวข้อมูลเองโดยการกำหนดเงื่อนไขเล็กๆน้อยๆเช่น ถ้าระยะห่างเกินกว่า n หน่วยก็ทำการกำหนดให้ข้อมูลนั้นกลายเป็นกลุ่มใหม่
Recognization ต่างจาก Classification อย่างไร
Recognize จะเป็นการหาตัวที่เหมือนที่สุดหรือคล้ายที่สุดสำหรับข้อมูลที่เข้าไปใหม่ เหมาะสำหรับการที่ไม่รู้จำนวน(Class)กลุ่มที่แน่นอน ใช้สำหรับหลายๆ ปัญหาเช่นการทำ face recognization หรือทำ recognization ต่างๆ และการทำ Recognize ก็ใช้งานได้ดีสำหรับการทำ multi-class
Classifier จะเป็นการแบ่งกลุ่มที่รู้จำนวนกลุ่มที่แน่นอนอยู่แล้วต้องการคำตอบออกมาเป็น ใช่หรือไม่ใช่ A หรือ B สำหรับ Binaryclass
จะเห็นได้ว่ากระบวนการทั้งสองมีความใกล้เคียงกันแต่วิธีใช้งานกับข้อมูลนั้นต่างกันสำหรับผู้ใช้ก็ต้องเลือกกระบวนการให้เหมาะสมกับโจทย์ปัญหานั้นๆ
ตอนต่อไป Data engineering การแปลงข้อมูลในรูปแบบต่างๆให้อยู่ในรูปของตัวเลข