知周記｜#3 認識『語音辨識』：TTS還是STT？. 摘要：不管是哪個，重要的是語音對話與溝通服務模式建立，已經逐漸成為公司對外服務的… | by 蓋瑞Talks | 小步快跑

蓋瑞Talks

Published in

小步快跑

4 min readJan 13, 2018

知周記｜#3 認識『語音辨識』：TTS還是STT？

摘要：不管是哪個，重要的是語音對話與溝通服務模式建立，已經逐漸成為公司對外服務的標配了。

這段時間會發現，有許多的銀行開始在客服部分有了不一樣的表現，簡單來說最主要會反映在『語音應用』。為了讓使用者可以更好的進行回覆，不再只是打字，一句話就是因為『懶』而這也就是人性的推動，讓文字再度進化到了語音。

但是，究竟是如何進行語音應用呢，基本上就是完成『語音識別』與『語意分析』。而二者目前的發展，又以前者較為成熟，而後者由具有偌大的發展空間。

那這篇就優先針對語音辨識做初步的認識，下回也會再針對語意分析做介紹

在語音辨識的背景來來說，早在兩年前就已經可以辨識準確度達90%，而目前更能達到約95%的應用水平。也就是能聽到人的對答後，能準確地呈現答覆。

其中，在這個領域的代表性企業，也是大家比較熟悉的微軟，谷歌；或是一些落地性的產品，以中國大陸來說最強的應該是科大迅飛的辨識。而多半目前在台灣的語音辨識，應用最廣的語系仍是中文，英文與日文的應用。可以說，扣除了這三種外包含台語都幾乎沒有公司在做應用了。而這段辨識，一般也是業界所指的STT，也就是所謂的Speech to Text(文字）

在流程來說，這部分，多採用雲端方式進行，也就是所有的對話再接收後，回丟到後端的雲上面進行分析，最終再傳回到使用者所看到的介面。那麼中間還經歷過些什麼呢，從流程的角度來說，如果有公司可以提供再優化的能力，那就是透過雲端分析傳回的資料再進行優化，來確保每個輸出字詞是精準的，尤其中文博大精深，同樣的字詞都可能有不同的意義。

畢竟，在技術的層次來看，可不只是這麼簡單，因為當STT走完流程後，後面至少還有四道工序要進行。分別是ASR(語音識別），NLU(語意分析)，DST（對話狀態控制），與NLG(對話生成）最終才會到TTS(Text To Speech)部分。

而語音識別部分ASR也是目前比較主流(有人認為是傳統）的一個模式，這也是大家提到的聲學模型(AM)，發音模型(PM)與語言模型(LM)所組成的一部分，只是目前這塊在上個月，谷歌也提出了新的LAS(Listen-Attend-Spell）的新架構，未來會有專文分享。

最後，這樣的基礎性商品怎麼賣呢？看看人家怎麼賣錢，微軟是以『完成筆數』最小單元。

而谷歌則是以分鐘作為最小單元。（圖一：微軟；圖二：谷歌）

那麼究竟要怎麼挑選呢？這主要還是先看產品的性質，如果每通電話的服務時間少，例如叫車服務，那麼可能採用分鐘為單元較佳；如果每次的時間長，那麼採用次數那可能會比較適合。

只是，從實務上，這部分又會因為客戶的服務量部分而可以洽談空間，所以會發現，多半的SI廠商對於這段還是相當保留的，因為只要是採階段性收費的中間的流程就會比較麻煩，所以多半也就是交由客戶自己去做選擇了。

語音辨識究竟能省多少力，我們並不清楚。但確定的是，人們的作業習慣已經從提筆書寫過渡到了打字，而現在即時通訊極為方便的基礎下，又逐漸習慣了對話。

提供給用戶，即時性的對話反應，將會是未來所有公司中的標配，也正因此語音辨識與語意分析將越來越重要了。

Written by 蓋瑞Talks