Andrea’s Discovery
Published in

Andrea’s Discovery

Andrea Dai

Jan 24, 2021

5 min read

年度關鍵字回顧:談齊夫定律(Zipf’s Law)

Source: covidsoclab.org / Aristovnik, A. et al. (2020)

呃,雖然新的一年已經要過去一個月了,不過現在來回顧一下2020年的關鍵字也不遲吧?因為我相信,武漢肺炎……我是說新冠肺炎,直至今年仍會蟬聯第一吧。

人們最喜歡在一年的結尾回顧過去這365天的大小新聞,並驚覺:哇,原來這一年發生了這麼多事!時間過真快!

根據日前搜尋巨擘龍頭Google公布的2020年度搜尋排行榜結果出爐,坐穩冠軍寶座的不出所料為新冠病毒(Coronavirus),緊接著為大選結果(Election Results),以及NBA傳奇球星Kobe Bryant。

而要說什麼最能精簡有力的總結這荒謬的一年?

「疫」字,果然毫無懸念獲得壓倒性勝利。

Source: Pixabay

很神奇吧?光是我這篇文章,所使用的不同的字眼可能就有上百種,何況數十億人們在一年內所講的、所寫的、所聽的,範圍又何其之廣,但討論話題絕大多數脫離不了排行榜前十名,而精闢的一個字的使用頻率可是驚人地高。

假設今天將所有在2020年被使用的字詞排序出來,會發現這些文字的使用頻率,遵守著商業理論上知名的「長尾效應」(The Long-Tail):前20%的產品,貢獻了80%的價值。

想不到吧,連人類有意或無意中吐出的一言一行,乃至絞盡腦汁耗費心血的創意,竟也能找出嚴謹的數學原理呢!就來一窺神奇的齊夫定律(Zipf’s Law)吧。

Source: Workana

根據美國哈佛大學語言學家·齊夫(George Zipf)的觀察結果,若是在文本庫中,將每個字詞所出現的頻率整理排名,會發現該字詞的出現頻率與它的排名成反比。

簡單來說,排名第一的字(最常出現),出現頻率會比排名第二的字多出兩倍,比排名第四的字多出四倍,以此類推,排名第N的字所佔文本的比重就是第一名的1/N。

依照收集了一百萬字詞的美國英語布朗語料庫(Brown Corpus)資料顯示,“the”、“of”、“and”是出現頻率最高的前三名,次數分別為69,971次、36,411次、28,852次,比重約為一百萬個字詞的7%、3.6%、2.9%,結果相當接近齊夫定律的預測。

值得注意的是,此實驗定律不只是巧合 — — 除了在語料庫中可得到證明,如果是在一篇足夠長的文章中,不論哪國語言,從《聖經》、莎士比亞到莫言的著作,都可以觀察到此規律。

Source: Pixabay

簡單來說,如果你能掌握某個語言中最常用到的前1,000個字詞,你大概就能了解由該語言所作的文章的八成。

若是要觀察某一實驗文本或資料是否符合齊夫定律,對數表及點陣圖也可派上用場。

將排名設為x,出現的次數設為y,並取其對數繪製(log(x),log(y))的線性圖,如果所有的點排序後越接近一條直線,那就可預測其遵循齊夫定律。

此定律可廣泛運用於詞表編制、文獻檢索等用途,但我們又不是語言學家,也非學者,觀察這有什麼好玩的?

Source: Pixahive

就如同文章最開頭談到的,年度前十大關鍵字。假設一年365天,每天都發生一起引人熱議的新聞,等於一年人們至少會搜尋365筆資料。

根據齊夫定律,排名第N名的字所佔整體比例為第一名的1/N倍,因此第一名者即可視為佔比1/1=1,而前十名總和即為1/1+1/2+…+1/10=2.93;所有關鍵字總和為1/1+1/2+…+1/365=6.48,等於說只要掌握到這十起新聞,你就跟上了這一年來將近一半的流行趨勢!

(其實我也不太確定實際如此計算是否正確,但大致概念為如此)

當然最重要的是,它能作為長尾效應的重要依據:在一大坨龐大的選項中脫穎而出的前幾名,被使用或被關注的程度加總起來遠大於所有其他的小配角。

因此,齊夫定律也被稱為「最省力法則」(Principle of Least Effort) — — 身而為人,我們無不在尋找最簡潔方便的生活方式,人人因此仰賴這些少數,主導多數的行為呢。

This is where I write some fun and interesting stuff I learned in books or videos.