這裏記錄下很有意思的seq2se2的作法, 傳統的seq2seq會把Input seq 壓縮成某種訊息向量(Encoder), 在decoder時只會用之前產生的Outputs seq和Encoder 向量一起預測下一個字的機率