14. 計數方法詞向量介紹

柯頌竹
Programming with Data
5 min readDec 3, 2020

word embedding的主要類型

詞嵌入根據方法的不同主要可以分為以下三類:

  • 詞庫手法 (ex: WordNet)
  • 計數手法 (ex: 共現矩陣、PPMI)
  • 推論手法 (ex: word2vec)

本文將介紹詞庫手法與計數手法

詞庫手法

在介紹計數手法前先來看看詞庫手法。詞庫手法顧名思義即為創建包含大量字詞的詞庫,將同義詞或相似詞分類在相同群組,例如 Car 的同義詞有 auto, automobile, machine, motorcar。

優點

  1. 較為直觀當收集完詞庫後,將字詞轉換為向量較為容易

缺點

  1. 建立與維護詞庫需要龐大的時間與人力成本。
  2. 因詞庫內的字詞是人工定義,因此以詞庫手法轉向量的結果與建立詞庫的人有很大的關係,如果是新的詞,還沒人工加入,就會無法辨識。

計數手法

為了改善詞庫手法的問題,計數手法會根據所收集的文本(語料庫)建立辭典,再根據建立的辭典以各種前處理以及計數手法來建立詞向量(如先前舉的 one-hot embedding

分布假說(Distributional Hypotheis)

上述舉的one-hot encoding方法無法表達出詞意與字詞間的關係(ex:玉山與雪山是類似字詞),而在將字詞轉換為詞向量時,我們希望可以保留詞義與字詞間的關係,因此我們假設字詞本身沒有意義,字詞意義是根據該詞的「上下文」形成的,而這就稱做分佈假說。

例如:

A:我們 去爬 玉山 如何?

B:我們 去爬 雪山 如何?

C:我們 去爬 喜馬拉雅山 如何?

從以上三句話可以發現每座山的前後文分別是「去爬」跟「如何」,所以可以推斷玉山、雪山、喜馬拉雅山為類似的詞。

共現矩陣(co-occurrence matrix)

根據分佈假說,相似的字詞會有類似的上下文,因此我們可以透過計數周圍(window)的字詞來表達特定字詞的向量。若以計數周圍的一個字詞為例 (window = 1):

共現矩陣雖然考慮了上下文,而且建立好的共現矩陣即可多次使用,表格中的數字代表兩字詞共生的次數,但這些「原始」次數並非良好的計數方式,因為矩陣維度龐大,需要大量的內存,且對高頻詞效果較差,例如“the apple“可能經常出現,但”the”跟”apple”的關聯性是不高的。

正向點間互資訊(PPMI)

觀察 PMI 的公式可以發現當兩個字詞的共生次數為 0 時,會產生負無窮大的輸出,為了修這樣的問題,將 PMI 改為 Positive PMI(PPMI)。

點間互資訊(PMI)

由於共現矩陣在高頻詞下有缺陷,因此使用點間互資訊(Pointwise Mutual Information)來解決此問題。

P(x) 代表 x 字詞出現機率,P(y) 代表 y 字詞出現機率,P(x, y) 代表 x, y 同時出現的機率,PMI 越高代表關聯性越高

降維(Dimension Reduction)

在機器學習中,若 input data(在本文中是指詞向量) 維度太高,會需要增加模型的複雜度,來學習資料的特徵,為了使複雜的模型保有良好的表現,就需要更大量的資料。 詞向量因為文本字詞一般較為龐大,因此計數手法產生詞向量的維度也會較大,而降維就是刪減向量的維度,在刪減維度的過程中,要盡量保存原有向量的重要資訊,才能降低資料的雜訊跟使用較簡潔的模型達到學習資料特徵的效果。

奇異值分解(Singular Value Decomposition, SVD)

SVD 即是常用來降維的手法之一,其可以將任意矩陣分解為三個矩陣的乘積(兩個方陣與一個對角矩陣),並利用前 k 個奇異值佔所有奇異值和的大多數的特性來將向量由 n 維降至 k 維。

在共現矩陣或PPMI中,多數的元素都是為0的值,意味著這兩種矩陣為稀疏矩陣(sparse matrix),其中大部分的元素都不重要。因此透過SVD可以將這樣的矩陣轉為稠密矩陣(大多數的元素都非為0),藉此可以達到重要特徵提取與降維的功用,因此,我們將回過頭來看要如何把共現矩陣套用在SVD上,首先,將原矩陣進行SVD分解

接著,取前k個大的奇異值

向量相似度

  • 上述介紹計數手法,考慮了字詞前後文,因此在類似的字詞會有較大的相似度(上下文接近)。而這次如 one-hot encoding 的方式所沒辦法得到的效果。
  • 比較兩個詞向量的相似度時,較常用的方法為餘弦相似度(Cosine similarity)。

--

--

柯頌竹
Programming with Data

熱愛自由行、參觀各種形式的展覽,踏上過20個國家的領土。歡迎詢問各種在歐洲自由行的問題。偶爾分享一下資料分析的讀書筆記。