参加メモ:Machine Learning Production Pitch #1

Machine Learning Production Pitch #1 に参加したのでそのメモ。といっても、最初の講演の「Anonymize Large-scale Sparse User Features at LINE Corp」のみ。

資料については下記

# Z-FEATURES

- 巨大なHIVEテーブル。行動ログを、機械学習で扱いやすいようにしたもの。LINEのすべてのユーザー分管理できているもの。
- 特徴
 — reusable
 — 標準的な特徴量を作っておくことで再利用できる。
 — flexible
 — ログの拡張もできるし、不要なものは除くこともできる。

- センシティブなデータが有るため、開示できない。許可がある人のみ。
- とてもスパース。モデルパラメータが大きくなりうるので、なんとかしたい。

# Y-FEATURES
- 上記の課題を解決すべく作られた特徴量
- 難読化することで、センシティブなデータも扱える。次元削減も可能
- 情報をできる限り保持したまま、やりたい。
- 活用したのはSCDV。
 — ドキュメントのボキャブラリーの各単語をクラスタ化して、その確率からワードクラスタを作り、結合し、IDFをかけて

# 評価
- いろんなサービスで試した。
- ZとくらべてYは次元は下がっているのがほとんど。次元があがってしまったものはそもそもの特徴量がスパースでなかったもの
- デモグラの推定の結果は、genderは変わらない、age-groupは下がった、regionは上がった