02 การลดมิติข้อมูล Dimensionality Reduction

Pimporn Pimpim
3 min readMar 16, 2019

--

มาต่อกันที่เนื้อหา 02 การลดมิติข้อมูลกันเลยจ้าาาาา

Credit: https://prateekvjoshi.com/2014/06/21/what-is-manifold-learning/

การลดมิติข้อมูลในภาคก่อนหน้าเราได้บอกว่า เป็นขั้นตอนหนึ่งของระบบการเรียนรู้ของเครื่อง การลดมิติข้อมูลเป็นวิธีที่ถูกนำเสนอเพื่อแก้ไขปัญหาของมิติข้อมูล Curse of dimension ซึ่งได้รับผลกระทบจากข้อมูลที่ลักษณะ High dimension ที่ไม่มีการจัดการข้อมูลก่อนในเบื้องต้น ข้อมูลที่มีจำนวนมากนั้นมีลักษณะข้อมูลที่กระจัดกระจาย และบางข้อมูลไม่มีประโยชน์ในการวิเคราะห์ ซึ่งจะส่งผลกระทบต่อความถูกต้องของการประมวลผล และบางอัลกอริทึมของประมวลผลไม่สามารถรองรับการทำงานของข้อมูลหรือตัวแปรจำนวนที่มากๆได้ นอกจากนี้ยังทำให้สิ้นเปลืองทรัพยากรในการประมวลผลอีกด้วย เช่น เวลาในการประมวผลนาน ใช้หน่วยความจำมากในประมวลผลแต่ละครั้ง ดังนั้นการออกแบบระบบการเรียนรู้ของเครื่องที่มีประสิทธิภาพจึงมีความจำเป็นที่ต้องมีการจัดการข้อมูลเบื้องต้นด้วยวิธีการลดมิติ Diagram ของการลดมิติข้อมูลสามารถแสดงดังรูป

เทคนิคการลดมิติสามารถแบ่งออกเป็น 2 กลุ่ม ได้แก่ เทคนิคการลดมิติแบบเดี่ยว (Single dimensionality reduction) และเทคนิคการลดมิติแบบผสมผสาน (Hybrid dimensionality reduction) เทคนิคการลดมิติแบบเดี่ยวเป็นเทคนิคที่คุ้นเคยกันเป็นอย่างดี นั่นคือ การใช้เทคนิคการแปลงคุณลักษณะ (Feature Transformation) หรือการใช้เทคนิคการเลือกคุณลักษณะที่สำคัญ (Feature Selection) เพียงอย่างใดอย่างหนึ่งเท่านั้น สำหรับเทคนิคการลดมิติแบบผสมผสานเป็นเทคนิคใหม่ นั่นก็คือ การรวมกันของวิธีลดมิติหลายวิธี โดยรายละเอียดของวิธีการลดมิติข้อมูลใน part จะอธิบายในส่วนของเทคนิคการแปลงคุณลักษณะก่อน โดยสามารถอธิบายได้ดังนี้

การแปลงคุณลักษณะ (Feature transformation)

การแปลงคุณลักษณะที่ใช้สำหรับการลดมิติข้อมูลเป็น การแปลงคุณลักษณะจากเบสิสเดิมไปยังเบสิสใหม่ ซึ่งมีผลทำให้ขนาดของจำนวนข้อมูลลดลง การแปลงคุณลักษณะของเบสิสเดิม X ไปยังเบสิสใหม่สามารถดำเนินการได้ตามสมการ

Y = wX

โดยที่ w คือ ค่าน้ำหนักหรือสัมประสิทธิ์ และฟังก์ชั่น Y คือ ข้อมูล X ที่ถูกลดมิติให้ที่มีขนาดเล็กลง วิธีการแปลงคุณลักษณะของชุดข้อมูลที่มีมากกว่า 2 ชุดข้อมูลขึ้นไป หรือถูกเรียกอีกอย่างว่า วิธีหลอมรวมคุณลักษณะ (Feature fusion) การวิธีหลอมรวมคุณลักษณะมีหลายวิธีดังนี้

  1. การวิเคราะห์หาองค์ประกอบหลัก (Principle Component Analysis: PCA)

วิธี PCA เป็นวิธีทางสถิติที่วิเคราะห์หาองค์ประกอบหลักของข้อมูลภายใต้เงื่อนไขค่าความแปรปรวน (Variance) สูงสุด หรือเป็นกระบวนการแปลงข้อมูล X บนเมทริกซ์การแปลง P เพื่อเป็นข้อมูลเชิงเส้น Y แสดงความสัมพันธ์ดังสมการ

Y=PX

เนื่องจากวิธี PCA เป็นวิธีที่พิจารณาความสัมพันธ์ร่วมกันของข้อมูล X หรือข้อมูลเพียงชุดเดียว หากมีชุดข้อมูลที่มากกว่าสองชุดขึ้นไป ข้อมูลเหล่านั้นจะถูกหลอมรวมก่อนในขั้นตอนแรกดังรูป

จากนั้นข้อมูลจะหาความสัมพันธ์ร่วม Covariance และและคำนวณหาองค์ประกอบหลักด้วย Eigen vector และ Eigen Value ที่สัมพันธ์กัน สำหรับการลดมิติข้อมูลด้วยวิธี PCA จะดำเนินการด้วยการจัดเรียงค่า Eigen จากมากไปหาน้อยหรือเรียกว่า diagonal ของค่า Eigen จากนั้นจะเลือกจำนวนขององค์ประกอบหลักจำนวน d ตัวเพื่อลดมิติลง การเลือกจำนวนขององค์ประกอบส่วนใหญ่จะเลือกจากค่าความเชื่อมั่นหรือค่าสะสมของ Eigen เมื่อได้จำนวนองค์ประกอบที่ จะนำค่า Eigen Vector เพื่อใช้เป็นค่า wight สำหรับการลดมิติข้อมูลก่อนเข้ากระบวนการประมวลผลต่อไป

2. การวิเคราะห์แยกแยะเชิงเส้น (Linear Discriminant Analysis: LDA)

วิธี LDA เป็นวิธีการทางสถิติที่ใช้การวิเคราะห์จำแนกกลุ่มตั้งแต่ 2 กลุ่มขึ้นไป หรือเรียกอีกอย่างหนึ่งว่า กระบวนการวิเคราะห์ LDA เป็นกระบวนการแยกแยะกลุ่มด้วยเทคนิคการเรียนรู้แบบมีผู้สอน กระบวนการหลอมรวมหลายชุดข้อมูลด้วยวิธี LDA มีการจัดเรียงข้อมูลคล้ายกับวิธี PCA แต่วิธี LDA จะนำข้อมูลของ label มาพิจารณาร่วมด้วยแสดงได้ดังรูป

และเงื่อนไขสำหรับการหาเมทริกซ์การแปลงของวิธี LDA มีความแตกต่างกันด้วย เงื่อนไขของวิธี LDA หาจากอัตราส่วนระหว่างค่าความแปรปรวนระหว่างกลุ่ม (Covariance between group, Sb) กับค่าความแปรปรวนร่วมภายในกลุ่ม (Covariance within group, Sw) สูงสุด ดังสมการ

โดยที่ c คือ จำนวนกลุ่ม, mi คือ ค่าเฉลี่ยของข้อมูลแต่ละกลุ่ม และ m คือ ค่าเฉลี่ยของข้อมูลทั้งหมด การแก้สมการหาไอเกนเวกเตอร์และค่าไอเกนของ Sb/Sw สามารถด้วยวิธี SVD และขั้นตอนการเลือกจำนวนมิติข้อมูลที่ลดลงจะเลือกคล้ายกับวิธี PCA

3 การวิเคราะห์สหสัมพันธ์คาโนนิคอล (Canonical Correlation Analysis : CCA)

วิธี CCA เป็นวิธีการทางสถิติมีจุดประสงค์เพื่อหาความสัมพันธ์เชิงเส้นของตัวแปรระหว่างแต่ละชุดข้อมูลตั้งแต่ 2 ชุดข้อมูลเป็นต้นไป ซึ่งตัวแปรทั้งหมดอยู่ในระดับเดียวกันหรือตัวอย่างเดียวกันและข้อมูลต้องมีการกระจายแบบปกติ (Gaussian distribution) เรากำหนดให้สองชุดข้อมูลที่มาจากตัวอย่างเดียวกันเป็น {(X1, X2)} โดยที่ชุดข้อมูลของ X1 จำนวนมิติเท่ากับ m และชุดข้อมูลของ X2 มีจำนวนมมิติเท่ากับ n รูปแบบของวิธีการลดมิติ CCA สามารถแสดงได้ดังรูป

เงื่อนไขของวิธี CCA คือ การหาค่าสัมประสิทธิ์สหสัมพันธ์คาโนนิคอลที่ได้จากค่าความสัมพันธ์ที่เป็นไปได้สูงสุดระหว่างกลุ่มข้อมูลต่างๆ ดังสมการ

โดยที่ wX1 และ wX2 เป็นค่าสัมประสิทธิ์สหสัมพันธ์คาโนนิคอลของข้อมูลชุดที่ 1 และข้อมูลชุดที่ 2 ซึ่งเป็นค่าน้ำหนักที่แสดงความสำคัญของตัวแปรต่างๆ

จากสมการดังกล่าวเราสามารถเขียนเป็นเมทริกซ์เพื่อแก้สมการหาค่าไอเกนได้ดังนี้

λ คือค่าไอเกนที่สอดคล้องกับไอเกนเวกเตอร์ wX1 และ wX2

เมื่อได้ค่าไอเกนและเวกเตอร์ไอเกนแล้ว ค่าไอเกนถูกเรียงลำดับจากมากไปหาน้อย โดยขนาดของไอเกนเวกเตอร์จะเท่ากับ min(m,p) หลังจากนั้นลดจำนวนคุณลักษณะเหลือ d < min(m,p) โดยจำนวนตัวแปรที่ถูกเลือกตามเงื่อนไขที่เรากำหนด

สำหรับ Part นี้ขอจบเนื้อหาของ การลดมิติด้วยวิธีการแปลงคุณลักษณะก่อนนะคะ คราวหน้ามาต่อกันในเนื้อหาของ การลดมิติด้วยวิธีการเลือกคุณลักษณะกันต่อนะจ๊ะ ….

--

--