参加メモ:Machine Learning Production Pitch #1
Machine Learning Production Pitch #1 に参加したのでそのメモ。といっても、最初の講演の「Anonymize Large-scale Sparse User Features at LINE Corp」のみ。
資料については下記
# Z-FEATURES
- 巨大なHIVEテーブル。行動ログを、機械学習で扱いやすいようにしたもの。LINEのすべてのユーザー分管理できているもの。
- 特徴
— reusable
— 標準的な特徴量を作っておくことで再利用できる。
— flexible
— ログの拡張もできるし、不要なものは除くこともできる。
- センシティブなデータが有るため、開示できない。許可がある人のみ。
- とてもスパース。モデルパラメータが大きくなりうるので、なんとかしたい。
# Y-FEATURES
- 上記の課題を解決すべく作られた特徴量
- 難読化することで、センシティブなデータも扱える。次元削減も可能
- 情報をできる限り保持したまま、やりたい。
- 活用したのはSCDV。
— ドキュメントのボキャブラリーの各単語をクラスタ化して、その確率からワードクラスタを作り、結合し、IDFをかけて
# 評価
- いろんなサービスで試した。
- ZとくらべてYは次元は下がっているのがほとんど。次元があがってしまったものはそもそもの特徴量がスパースでなかったもの
- デモグラの推定の結果は、genderは変わらない、age-groupは下がった、regionは上がった