蓋瑞Talks
小步快跑
Published in
4 min readJan 13, 2018

--

知周記|#3 認識『語音辨識』:TTS還是STT?

摘要:不管是哪個,重要的是語音對話與溝通服務模式建立,已經逐漸成為公司對外服務的標配了。

這段時間會發現,有許多的銀行開始在客服部分有了不一樣的表現,簡單來說最主要會反映在『語音應用』。為了讓使用者可以更好的進行回覆,不再只是打字,一句話就是因為『懶』而這也就是人性的推動,讓文字再度進化到了語音。

但是,究竟是如何進行語音應用呢,基本上就是完成『語音識別』與『語意分析』。而二者目前的發展,又以前者較為成熟,而後者由具有偌大的發展空間。

那這篇就優先針對語音辨識做初步的認識,下回也會再針對語意分析做介紹

在語音辨識的背景來來說,早在兩年前就已經可以辨識準確度達90%,而目前更能達到約95%的應用水平。也就是能聽到人的對答後,能準確地呈現答覆。

其中,在這個領域的代表性企業,也是大家比較熟悉的微軟,谷歌;或是一些落地性的產品,以中國大陸來說最強的應該是科大迅飛的辨識。而多半目前在台灣的語音辨識,應用最廣的語系仍是中文,英文與日文的應用。可以說,扣除了這三種外包含台語都幾乎沒有公司在做應用了。而這段辨識,一般也是業界所指的STT,也就是所謂的Speech to Text(文字)

在流程來說,這部分,多採用雲端方式進行,也就是所有的對話再接收後,回丟到後端的雲上面進行分析,最終再傳回到使用者所看到的介面。那麼中間還經歷過些什麼呢,從流程的角度來說,如果有公司可以提供再優化的能力,那就是透過雲端分析傳回的資料再進行優化,來確保每個輸出字詞是精準的,尤其中文博大精深,同樣的字詞都可能有不同的意義。

畢竟,在技術的層次來看,可不只是這麼簡單,因為當STT走完流程後,後面至少還有四道工序要進行。分別是ASR(語音識別),NLU(語意分析),DST(對話狀態控制), 與NLG(對話生成)最終才會到TTS(Text To Speech)部分。

而語音識別部分ASR也是目前比較主流(有人認為是傳統)的一個模式,這也是大家提到的聲學模型(AM),發音模型(PM)與語言模型(LM)所組成的一部分,只是目前這塊在上個月,谷歌也提出了新的LAS(Listen-Attend-Spell)的新架構,未來會有專文分享。

最後,這樣的基礎性商品怎麼賣呢?看看人家怎麼賣錢,微軟是以『完成筆數』最小單元。

而谷歌則是以分鐘作為最小單元。(圖一:微軟;圖二:谷歌)

那麼究竟要怎麼挑選呢?這主要還是先看產品的性質,如果每通電話的服務時間少,例如叫車服務,那麼可能採用分鐘為單元較佳;如果每次的時間長,那麼採用次數那可能會比較適合。

只是,從實務上,這部分又會因為客戶的服務量部分而可以洽談空間,所以會發現,多半的SI廠商對於這段還是相當保留的,因為只要是採階段性收費的中間的流程就會比較麻煩,所以多半也就是交由客戶自己去做選擇了。

語音辨識究竟能省多少力,我們並不清楚。但確定的是,人們的作業習慣已經從提筆書寫過渡到了打字,而現在即時通訊極為方便的基礎下,又逐漸習慣了對話。

提供給用戶,即時性的對話反應,將會是未來所有公司中的標配,也正因此語音辨識與語意分析將越來越重要了。

--

--

蓋瑞Talks
小步快跑

目前人在美國加州大學柏克萊公共政策學院念碩士。過去在外商科技業、顧問業擔任商務開發。專精於客戶開發、新事業發展等。目前在再生能源公司中實習。