RNN 容易有梯度消失與梯度爆炸的問題,而LSTM 與GRU就是在解決這樣的問題。
之前的提到的SimplyRNN、RNN+LSTM、RNN+GRU都是單向遞迴神經網路,也就是說再預測字詞的模型中,神經網路只會考慮上文,並不會上下文同時考慮進去。
簡要模型架構如下:
RNN Cell的第一個輸出方程式如下: