I have been watching Netflix AlphaGo more than 10 times.

Netflix AlphaGoを10回以上見ている

Yoshiyuki Yokoyama(@bluerasheen)
bluerasheen
9 min readDec 6, 2018

--

I saw Netflix AlphaGo several months ago. Then if you notice it it is watching more than 10 times. Initially, The amazingness of AI can be experienced. People around AlphaGo are beautiful. A glimpse of hope for the future… I was watching for such a reason.
数ヶ月前にNetflix AlphaGoを見て以来、気づけば10回以上繰り返し見ています。最初は、AIの凄さヤバさを体感できる、AlphaGoの周辺にいる誰もが美しい、この世の未来の希望が垣間見れるような気がする…こんな理由で見ていたと思います。

then I want to know more about AlphaGo. I want to know more about DeepMind
I was born. The more I examine it, the more I want to see Netflix AlphaGo. A new question arises when you learn something new. I want to research again … Infinite Loop.
そこから次第に、AlphaGoをもっと知りたい、DeepMindをもっと知りたい…という気持ちが芽生え、調べる程にまたNetflix AlphaGoが見たくなり、知見を持って見ると前回は見逃していた箇所が新たな疑問をうみ、更に調べては見たくなり…という無限ループ、笑。

DeepMindがGoogleに買収される前に開発していたAIが、DQN(Deep Q-Network)という自己学習するアルゴリズムでブロック崩しを攻略していく動画

Points that resonate in my heart.

Deep Mind’s mission is cool ”Solve intelligence. Use it to make the world a better place.”

Programming thinking · thought is different from other companies. “A program that learns solutions from cases rather than programs to solve problems”

AlphaGo is a passing point for creating a general purpose AI. (not AI for go only)

Since AlphaGo won the most powerful human race, development ended.

AlphaGo learned how to hit from amateur game records. And they made machines fight each other. Furthermore, learning reinforcement was carried out with a judgment of the opposite. (combinational / neural network, Monte Carlo tree search)

For example, machines can give half of thinking time to one side,

Choose the one with the highest probability of winning in the game decision. That’s why it’s not always the best.

There are cases in which you have a wonderful hand. Sometimes I hit a hand that is not very good.

Successor AlphaGo Zero gives only rules. (away from people)

AlphaZero became strongest with chess, shogi, go.

AlphaZero’s chess is doing a completely new one.

僕がグッっとくるポイント(素人なので言葉とか色々間違ってる…)

・AlphaGoを開発するDeepMind社のミッションがそもそもカッコイー。「知性を解明し世界をより良くする」
・なのでプログラミング思考・思想が、そもそも他社と異なる。問題解決するためのプログラムではなく、事例から解決方法を学ぶプログラム
・AlphaGoは汎用AIを作るための通過点にすぎない(囲碁専用AIではない)
・AlphaGoは人類最強に勝ってしまったので、開発終了
・AlphaGoはアマチュア棋譜から打ち方を学ばせ、学んだ機械同士を戦わせ、さらに対局判断をいれ強化学習をさせた(コンビネーショナル・ニューラルネットワーク,モンテカルロツリーサーチ)
・たとえば片方の機械には考える時間を半分しか与えない…とか
・対局判断は勝つ確率の高い方を選ぶので、必ずしも最善手、最大手を打つわけではない
・よって人智を拡張する手を打つと思えば、局面(既に勝ちをAlphaGoだけが知っている場合とか)によりあきらかに緩い手を打ったりする
後継AlphaGo Zeroは、棋譜も入力せずルールしか与えていない(人智の知能制約から開放)
・その後継AlphaZeroはチェス、将棋、囲碁で最強に
・AlphaZeroのチェスは全く新しいうち方をしているんだとか…

AI has a reward of score. So it’s easy to set game strategy. It is easy for AI to maximize the value … I see.

Google Deep Mind’s AI is aiming for general purpose type. How do you reward challenges to be addressed in the real world? There is a problem … I see.

If some rewards can be set and problems solving cases increase, AI may set the reward score on its own. It may also solve problems that humanity is not aware of.

AI is a wonderful tool that extends human capabilities. I feel the future.

AIがゲーム攻略に取り組みやすいのは、スコアという報酬があり、その値を最大化するという目的は、AIにとって容易に設定しやすいのだという、なるほど。

Google DeepMindのAIはそもそも汎用型を目指しているので、現実世界で取組むべき課題に対して、どういう報酬をAIに与えていけば良いのか?ということが今課題になっていると、これまたなるほど。

なんらかの報酬が設定できて、それによる様々な課題解決事例が増えていくと、近未来にはAI自身がこの世のあらゆる課題とそれに対する報酬スコアを設定し、加速度的に解決してくれるとしたら、すごいなあ。人類が今、問題だとすら認識していない課題を解決し最適化してくれるとしたら、救世主だなあ。

そう思うとAIって、人類の能力を拡大してくれる道具な気がして、とても未来を感じるなあと。

--

--

Yoshiyuki Yokoyama(@bluerasheen)
bluerasheen

I love traveling, novels, and alcohol. I design for the betterment of society.