Machine Learning Production Pitch #1 に参加したのでそのメモ。といっても、最初の講演の「Anonymize Large-scale Sparse User Features at LINE Corp」のみ。
資料については下記
仕事ではじめる機械学習を読んでいる。
http://amzn.to/2DTCssN
その中で推薦システムのアルゴリズムについての記載があったので、メモ。
Kindleとして出ていて話題になっていた書籍「仕事ではじめる機械学習」が、好評だったため物理本として1月に発売されるとのこと。
僕はデータの標準化を、平均引いて、標準偏差で割る、というのを手動で書くことが多かったが、sklearnにメソッドがあったので、こちらをつかってみた。
続きは、GitHubにあげてるJupyterNotebookで。
はじめてのパターン認識の4章を読んだ。
tkmさんのKaggle動画をみていたところ、 sklearn.model_selection.StratifiedKFold が出て来た。
sklearn.model_selection.StratifiedKFold
分類タスクのコード中などに、 argmax が時折でてくる。
argmax
これは、f(x)を最大にするxの集合を求めるときに使う。argument of the maximum(最大値を与える引数)の略。
分類タスクで、もっとも値が大きいラベルを取ってくる際などにでてくる。
参考:
旅行に行く際に、遊んでいるという負い目からか、勉強のための書籍を持って行く方、多いのではないか。(そして持っていっても読まない。)
今回僕は4泊5日に3冊の書籍を持って行くことにした。(「3年2ヶ月の孤独な一人旅」みたい。)
果たして、帰ってくるときに何冊読めているだろうか。なお、機械学習プロフェッショナルシリーズで揃えてみた。
まず共分散について。
あるたくさんのxについて、それぞれ特徴量aとbがあった際に、共分散は
1/n * Σ_i (a -μ_a)(b-μ_b)
で計算できる。
そして、分散共分散行列は、あるたくさんのxのd個の特徴量について、全ての組み合わせで共分散を求め、それをd×dの行列に収めたもの。