PCAとは
Published in
2 min readJul 23, 2017
PCAとは、主成分分析(Principal Component Analysis)のこと。
様々な分野で使用されている教師なし線形変換法であり、最も用いられるタスクは次元削減
PCAの目的は、高次元データにおいて分散が最大となる方向を見つけ出し、元の次元と同じか、それよりも低い次元の新しい部分空間へ射影すること。
単純なステップは下記
- d次元のデータセットを標準化する(特徴量を標準化しないと、等しい重要度が割り当てられない)
- 標準化したデータセットの共分散行列を作成する
- 共分散行列を固有ベクトルと固有値に分解する
- 最も大きいk個の固有値に対応するk個の固有ベクトルを選択する。この場合のkは新しい特徴部分空間の次元数を表す
- 上位k個の固有ベクトルから射影行列Wを作成する
- 射影行列Wを使ってd次元の入力データセットXを変換し、新しいk次元の特徴部分空間を取得する
なお、PCAの実例については、下記がわかりやすかった。画像データについて、どの程度次元を削減するとどのように表示されるかを試してくれている。
共分散行列、固有ベクトル、固有値の言葉の理解が足りないので、それはまた明日。
参考: