Understanding Synthetic Gradients and Decoupled Neural Interfaces( Reddit & translate )



Synthetic gradients is a good candidate for mechanism of emotions in the brain.

Ok. I’ll bite.. why?

I’ve read that emotions thought of as simplified heuristics providing approximate solution(policy) faster then slow optimization based solution. Those heuristics should be also trained somehow, and if they plugged in as replacement into lower part of learning stack that looks similar to SG.
(私は感情が、近似解(方針)を速くし、ゆっくりとした最適化ベースの解を提供する、単純化されたヒューリスティックとして考えることを読んだ。 これらのヒューリスティックは、何らかの形で訓練されている必要があります。また、SGに似ている学習スタックの下部に置き換えてプラグインしている場合もあります。)

When training neural networks, the use of Synthetic Gradients (SG) allows layers or modules to be trained without update locking — without waiting for a true error gradient to be backpropagated — resulting in Decoupled Neural Interfaces (DNIs). This unlocked ability of being able to update parts of a neural network asynchronously and with only local information was demonstrated to work empirically in Jaderberg et al (2016). However, there has been very little demonstration of what changes DNIs and SGs impose from a functional, representational, and learning dynamics point of view. In this paper, we study DNIs through the use of synthetic gradients on feed-forward networks to better understand their behaviour and elucidate their effect on optimisation. We show that the incorporation of SGs does not affect the representational strength of the learning system for a neural network, and prove the convergence of the learning system for linear and deep linear models. On practical problems we investigate the mechanism by which synthetic gradient estimators approximate the true loss, and, surprisingly, how that leads to drastically different layer-wise representations. Finally, we also expose the relationship of using synthetic gradients to other error approximation techniques and find a unifying language for discussion and comparison.

ニューラルネットワークをトレーニングする場合、Synthetic Gradients(SG)を使用すると、真のエラー勾配が逆伝播するのを待つことなく、レイヤーまたはモジュールを更新ロックなしで訓練することができ、デカップルドニューラルインターフェイス(DNI)が得られます。ニューラルネットワークの一部を非同期に、そしてローカル情報のみで更新できるこのロックされていない能力は、Jaderberg et al(2016)で経験的に働くことが実証されました。しかし、DNIやSGが機能的、表現的、学習的なダイナミックスの観点からどのような変更を加えたのかについてはほとんど実証されていません。本稿では、フィードフォワードネットワーク上の合成勾配を用いてDNIを研究し、その動作をよりよく理解し、最適化への影響を明らかにする。 SGの組み込みがニューラルネットワークの学習システムの表現力に影響を与えないことを示し、線形モデルと深い線形モデルの学習システムの収束を証明する。実際の問題では、合成勾配推定器が真の損失に近似するメカニズムを調査し、驚くべきことに、それがどのように層別表現が大きく異なるのかを調べます。最後に、合成勾配を他の誤差近似技法に使用することの関係を明らかにし、議論と比較のための統一言語を見つける。