ML : Self-attention

6 min readSep 7, 2021

Self-attention(自注意力機制)

至目前為止，model用到的輸入皆可看為一個vector，但遇到更複雜的輸入時，像是輸入為一個sequence或是每次輸入長短不一的向量！

處理下述複雜的輸入！

舉較為複雜的例子來說：
1. 文字句子可以作為一個vector
2. 聲音訊號也可以是一段vector
3. Graph當成一串vector
4. Ｄrug Discovery分子架構做為一段vector

輸入整個sequence，輸出一個label (Nto1)
應用面：
a. 文字判斷正負面：This is good =>正面
b. 給graph，輸出label：分子架構圖，決定親水性

訓練家不知要有多少label，由model自己決定(NtoN’)
N不一定等同於N’
應用面：
a. Sequence to sequence(Seq2Seq): 輸入一段語音，翻譯出一段文字。

input number = output number

目前我們使用FC(Fully connected) neural network，對I saw a saw(我看到一把鋸子)做POS tagging分類，如果模型一單一個字彙訓練模型，句子中的兩個saw應該會被判斷為同一類型，但這不符合分類預期！

所以模型只針對一個字彙訓練，無法判斷名詞動詞，應該要考慮字彙間的關係，使FC考慮上下文的關係，用一個window蓋住部分sequence

But，此方法有極限，像是如果window 涵蓋整個sequence，容易導致訓練參數量暴增，且易overfitting!

Attention is all you need!

Self-attention會吃一整個sequence的資訊，輸出相同數量的結果，且在訓練時他考慮一整個sequence 。

根據a1找出其他a2~a4跟a1的相關程度alpha
以b1來說明(b2~b4同理)：

Dot-product(常用)：
input1 乘上Wq矩陣形成q
input2 乘上Wk矩陣形成k
q與k做inner product形成alpha
Additive:
input1 乘上Wq矩陣形成q
input2 乘上Wk矩陣形成k
q與k做加法再透過activation function，
再乘上W矩陣，行程alpha

2. 計算過程

alpha1,1~4稱為attention score
右上角的公式為soft-max的公式，不一定要soft-max，也可以用ReLU

用q找k，相關性可能有不同類別，所以需要多個q找出k來負責多種相關性。
說明看影片15:07

3. CNN v.s. self-attention:
當資料少時：選CNN ->無法從更大量的資料get好處
當資料多時：選self-attention->太少資料可能overfitting

self-attention的優點為output平行化產生
目前的self-attention沒有位置資訊
所有字句的位置對self-attention皆相同＃天涯若比鄰
但部分字句的位置資訊可能很重要
=>使用Positional Encoding
ei為位置資訊，每個字有自己的ei，且ei不重複。