参加メモ：Machine Learning Production Pitch #1

Published in

Music and Technology

2 min readMar 8, 2019

Machine Learning Production Pitch #1 に参加したのでそのメモ。といっても、最初の講演の「Anonymize Large-scale Sparse User Features at LINE Corp」のみ。

資料については下記

Machine Learning Production Pitch #1 - 資料一覧 - connpass

「Machine Learning Production Pitch #1」の資料一覧です

line.connpass.com

# Z-FEATURES

- 巨大なHIVEテーブル。行動ログを、機械学習で扱いやすいようにしたもの。LINEのすべてのユーザー分管理できているもの。
- 特徴
— reusable
— 標準的な特徴量を作っておくことで再利用できる。
— flexible
— ログの拡張もできるし、不要なものは除くこともできる。

- センシティブなデータが有るため、開示できない。許可がある人のみ。
- とてもスパース。モデルパラメータが大きくなりうるので、なんとかしたい。

# Y-FEATURES
- 上記の課題を解決すべく作られた特徴量
- 難読化することで、センシティブなデータも扱える。次元削減も可能
- 情報をできる限り保持したまま、やりたい。
- 活用したのはSCDV。
— ドキュメントのボキャブラリーの各単語をクラスタ化して、その確率からワードクラスタを作り、結合し、IDFをかけて

# 評価
- いろんなサービスで試した。
- ZとくらべてYは次元は下がっているのがほとんど。次元があがってしまったものはそもそもの特徴量がスパースでなかったもの
- デモグラの推定の結果は、genderは変わらない、age-groupは下がった、regionは上がった

参加メモ：Machine Learning Production Pitch #1

Machine Learning Production Pitch #1 - 資料一覧 - connpass

「Machine Learning Production Pitch #1」の資料一覧です

Written by takkii