別再小看 Google 翻譯

AI Justka
AI 講講話
Published in
Aug 12, 2022
Google 翻譯

在以前,我們使用網路上的翻譯機,時常都會出現詞不達意、語句不通順的結果。2016年,Google 翻譯使用了深度學習技術,讓翻譯品質大幅提升,受到眾人的關注。

以中翻英來說,當人類在翻譯時,會先將中文單字轉換成英文,例如:「我」翻成「I」,再依照英文的規則去排列出正確的語序,是利用我們學習英文的單字和文法知識進行翻譯。

人類透過詞彙與語序進行翻譯

然而,使用深度學習的自動翻譯機,並不是根據文法知識進行翻譯,而是從大量的譯文中學習其中的規則。即當出現某種排列順序的中文單字組合,大多會被翻譯的英文單字組合結果,例如:中文說「喝湯」,機器是透過大量譯文中知道大多會被翻譯成「eat soup」,而不是「drink soup」;而人類是依靠學習才知道正確說法是「eat soup」。也就是說 AI 並不是像人類一樣,有單字和文法的知識,而是根據大量的譯文數據,來進行詞彙的選擇及正確的語序。

單字的意義

因為 AI 不像人類一樣,可以理解單字的意義,所以我們需要搜集大量文本進行分析,就可以知道某個單字和哪一個單字常常一起使用,即一起出現的頻率很高。

意思相似的單字,其用法往往也會非常相似,自動翻譯便是根據這樣的語言特性,各個單字配置在多維空間上,就如同我們在詞彙與它們之間的關聯學習到詞彙之間是有關聯性的。又例如AI 如何變聰明?(二) — — 什麼是「機器學習」中的這張圖:

相似的單字會在空間維度中彼此相鄰

將單字配置到座標空間上,具有相似意義的單字就會聚集在彼此附近。例如「老虎」就會跟動物的的單字群組接近,「捷運」也會跟車類的單字相鄰⋯⋯,利用數值的組合在多次元空間上配置單字的位置。

機器翻譯的過程

機器翻譯的過程就是先將要翻譯的文本轉換成數值。假設要把一句話從韓文轉換成英文,就要利用深度學習的技術,計算各個單字之間的數值組合,把得到對應的英文數值組合轉換成英文單字,就完成翻譯了。

機器翻譯的過程

機器透過不斷地學習,計算方式及單字所表達的數值組合也會隨之調整,讓翻譯變得更加自然通順。你可以試試看,將一個句子放入 Google 翻譯,經過幾個月或是幾年,再將同樣的句子放入 Google 翻譯測試,可能會出現優化過後更加順暢自然的句子,這就是 AI 不斷學習精進的成果。

--

--