ラベルなしデータの有効活用:深度の推定と画像の分類
8/9のarXivTimes輪講では、ラベルなしのデータを有効に活用した研究が紹介されました。今あるデータをどう活用するか、という点は実運用においても役立つテーマと思います。
Unsupervised monocular depth estimation with Left-Right Consistency
こちらは一枚の写真から深度を推定する手法を、画像/深度(Depth map)のペアではなくステレオ画像から学習させようという試みです。深度の教師データを作成するのは面倒ですが、ステレオ画像なら簡単に集められます。これを有効に活用することを試みた研究です。
手法としては、Depth mapを直接推定するのではなくステレオ画像における視差(Disparity map)の推定を行っています(視差がわかれば深度も推定できるため)。左カメラ画像から視差を推定し、推定視差と元の画像を組み合わせたものを実際の右カメラ画像と比較する、といった形で学習を行います(同様に右からも行います)。
実際にChainerで実装したところ学習に4日くらいかかったそうです。KITTIはさすがにサイズが大きい。
Learning Discrete Representations via Information Maximizing Self Augmented Training
こちらはPFNから発表された、教師なしでもMNISTを97%の精度で分類できたと話題になった論文です。
情報量最大化の手法(Information Maximizing=IM)と、汎化性能を向上させるためのData Augmentation(Self-Augmented Training=SAT)を組み合わせたIMSATという手法が本論文で提案されている手法です。
IMSATはRegularized Information Maximization(RIM)という手法がベースになっており、RIMは以下の式を最小化するよう学習します。
R(θ)が正則化項で、ある意味最小化を阻んでいる項になります。本論文ではAdversarialなノイズを乗せるためまさに「阻んでいる」感じになります(VATの仕組みが利用されています)。
右の項は、イメージ的には「データ全体から見たyの予測分布のエントロピー」と、「個別の予測におけるyの分布のエントロピーの平均」との差分になっています。
データ全体から見ればラベルは均等に分布しているはずなので、前者は一様分布=エントロピーが大きいほうが実態に近いことになります。一方個別のサンプルからラベルを予測する場合は、one hotのように正しいラベルの箇所にインパルスがたっているような分布のほうが好ましい=エントロピーが小さい方がよくなります。前者をなるべく大きくして後者をなるべく小さくすることで、この項の最小化ができるという寸法になります。
ここからさらにハッシュラーニングなどの工夫が盛り込まれるのですが、その辺りから理解が及ばない感じでした(たぶん0/1のコードに変換していると思われるのですが・・・)。
識者のかたのコメントをお待ちしておりますm(_ _)m
以上が8/9の輪講の内容でした。
At the End
arXivTimesでは、論文輪講のメンバ及びarXivTimesへの投稿をお待ちしております(投稿上でのディスカッションなどもできればと思っています)。興味をお持ちの方は、Twitterのメンションでぜひご連絡ください。