OpML ‘19参加レポート

Yuji Oshima

Published in

nttlabs

8 min readMay 24, 2019

こんにちは。NTT 研究所の大嶋です。先日、サンノゼで開催されたOpML ‘19に参加してきましたので今回の記事ではそのレポートをお届けします．

OpMLとは

OpMLはUSENIXが主催するイベントで，インダストリとリサーチの垣根なく，Machine Learningを商用環境に適用する際の問題やその解決策，ベストプラクティスを共有することを目的とします．近年機械学習が研究にとどまらずサービスでも利用され始めるなかで広く注目される分野となっています．OpMLは今回が初回ながら投稿が数多くあり，投稿数62に対し採択数が30でした．参加人数は210人だそうです．

セッション紹介

発表が並列して行われていたので全ての発表は聞くことができませんでしたが，私が興味深かったセッションをいくつかご紹介したいと思います．

Ray: A Distributed Framework for Emerging AI Applications

by Michael I. Jordan, University of California, Berkeley

カルフォルニア大学のMichael教授からキーノートの発表がありました．前半はAI（機械学習）がこれまで適用されてきた領域とその貢献，そして今後についてでした．今後は単一のエージェントで完結せず，複数のエージェントが相互作用するマーケットでの意思決定が重要になるというものでした．後半は発表者の取り組む機械学習基盤用OSSであるRayについてでした．Rayはかなり以前から開発されているOSSで，柔軟に分散学習などを行えると主張しています．ただ近年似たOSSが増えてきており，聴衆も結局どれがデファクトになるのかに興味があるという印象でした．

Deep Learning Vector Search Service

by Jeffrey Zhu and Mingqin Li, Microsoft

最近日本語の記事でも話題になったMicrosoft の近似最近傍探索ライブラリSPTAGについての発表でした．そもそも近似最近傍探索とは何か，どのようなアルゴリズムを用いているのか，何に適用されるのかについての説明から，前述のライブラリを用いた実装および評価についてでした．特に実装面について，スケーラビリティ向上のための技術や低コストを実現するためメモリ使用量をいかに下げつつキャシュヒット率をあげるかといった，商用環境上での実装に関する話はとても興味深かったです．

Predictive Caching@Scale

by Vaishnav Janardhan and Adit Bhardwaj, Akamai Technologies

CDN事業者であるAkamaiによるキャッシュアルゴリズムに関する発表です．Akamaiでは138カ国の240,000のサーバ上で50+ trillion bpsのデータを扱っており，当然キャッシュアルゴリズムが非常に重要なります．オンラインでLRUベースのアルゴリズムよりも高いパフォーマンスのPrediction-Error Segmented Cache(PeSC)が紹介されました．さらに学習，推定における実装上の問題点と解決策について語られています．

The Power of Metrics — How to Monitor and Improve ML Efficiency

by Yan Yan and Zhilan Zweiger, Facebook

大規模な機械学習基盤の運用におけるメトリクス設計の重要性についての発表です．特に複数人が分散学習を行うような基盤だと様々な理由によりリソースの利用率が大幅に低下することがしばしば起こります．この問題のためFacebookではflow-infoというツールを開発しています．これによりネットワーク帯域やMemory Bankなど様々な観点でメトリクスを取得し，分散学習時のデータロードのワーカ数やパラメータサーバの数などを最適化してくれるそうです．

Manifold: A Model-Agnostic Visual Debugging Tool for Machine Learning at Uber

by Lezhi Li, Yunfeng Bai, and Yang Wang, Uber Inc.

Uberで用いられる機械学習システムのデバッグツールManiforldについてです．Uberでは最初のモデルの作成と比べてモデル改善の比重が全体の80%を占めると考えているそうで，モデルのデバッグツールが非常に重要だと語っています．Maniforldは複数のデータセットと複数のモデルを横断的に表示し，データセットの中のサブセットに対しモデルがどのような挙動を示すかを簡単に視覚化することがでるそうです．UberはすでにMichelangeloという機械学習基盤を発表しており，その基盤との連携についても語られています．Uberは積極的に社内の基盤について発表を行ってくれるので非常に参考になります．

Continuous Training for Production ML in the TensorFlow Extended (TFX) Platform

by Denis Baylor, Kevin Haas, Konstantinos Katsiapis, Sammy Leong, Rose Liu, Clemens Menwald, Hui Miao, Neoklis Polyzotis, Mitchell Trott, and Martin Zinkevich,

Googleの社内機械学習基盤TensorFlow Extended(TFX)についての発表です．TFXにはKDD2017で論文も発表されており一部OSSも公開されているのですが，今回はその中で最近OSSとして公開されたメタデータ管理に関するml-metadataについての発表でした．彼らは機械学習のパイプラインにおいて，タスクドリブンとデータドリブンがあり，タスクドリブンなパイプラインは理解しやすいがデータなどの依存関係が曖昧となると主張しています．そのため継続的に回すことになるパイプラインで彼らはデータドリブンなパイプラインを選択したと語っています．データドリブンなパイプラインでは各タスクの生成物（アーティファクト）が重要視され，その管理に中核的な役割を果たすのがml-metadataです．

Katib: A Distributed General AutoML Platform on Kubernetes

by Jinan Zhou, Andrey Velichkevich, Kirill Prosvirov, and Anubhav Garg, Cisco Systems; Yuji Oshima, NTT Software Innovation Center; Debo Dutta, Cisco Systems

OSSとして開発しされているKubeFlow/Katibについての発表です．私もOSSのメンテナをつとめており，共著者になっております．KatibはKubeFlowの中でハイパーパラメータチューニングを担当するコンポーネントとして始まりましたが，今ではAutoMLフレームワークとしてNeural Architecture Search(NAS)などもサポートしていく方向に発展しています．今回の発表では特にNASの開発に尽力してくれたCiscoのメンバが中心となって発表を行いました．KatibはKubernetesネイティブなアーキテクチャをとっており，kubernetesさえあれば簡単にどこでも同じ使用感を得られることを目指しています．また各最適化アルゴリズムが別サービスとして動くアーキテクチャを採用しており，アルゴリズムの追加削除が容易に行えるようになっています．

上記の発表以外にも面白い発表はたくさんあったのですが，全ては紹介しきれないので今回はこれだけです．イベント全体として非常に参加者の期待感が高く，勢いがありましたが各発表の時間があまり長く取れなかったこともあり，どの発表ももうすこし詳しく聞きたかったのが正直なところでした．

おそらく来年以降今年度の雰囲気を踏まえて改善されていくものと思われますので興味のある方はぜひ参加されてみてはいかがでしょうか．