【MIX2018】語音交互工作坊(上):從「人工智能產業概況」到「CUI交互特徵」

Tom Liou
12 min readJul 7, 2018

本逐字稿為湯六參加MIX2018年會的其中一場工作坊,因為工作之故所以接觸到語音UX的範圍,但歐禮萊的書看完覺得「有看沒有懂」,在工作應用上有點騷不到養處,故此想藉著參加工作坊與繕打逐字稿的歷程,幫助自己把語音交互的結構梳理一次。

本篇文章共有「上、中、下」系列,但因為內容有點多,但我特別推薦下面兩種人可以讀完。

  1. 跟我一樣看了歐禮萊的用戶介面設計書,覺得這本書超硬,硬讀後有點烙賽的人XD
  2. 對CUI有興趣的人,需要口語化的方式需要文章幫你從旁協助你思考。

以下為其他兩篇文章

左方是Nathan/陳耀軒,負責天貓精靈的語音交互。右方是冠芠,負責多模態UX設計。

本次工作坊的主講者有兩位分別是創立「UX 四神湯」的Nathan/陳耀軒,以及與筆者同學校的學姊林冠芠,這兩位目前在阿里巴巴服務負責天貓精靈的語音交互UX以及多模態設計的UX服務。

前情提要完,以下開始為逐字稿正文

圖1:第一位講者是Nathan,他用極快的語速幫大家開始複習人工智能產業概況跟CUI設計的特色XD

大家好,人工智能今年正在進行典範轉移,很多人對於人工智能都有很大的誤解,認為做人工智能的人都在做像是電影「鋼鐵人JAVIS」酷炫或是「HER」一樣可以談戀愛的東西。

但真實世界的人工智能比較像是「工人智能」,背後都是一群可憐的工程師在熬夜編寫代碼所得來的成果。大家有去體驗語音交互的競品就可以發現像是Siri、Google Home、Amazon Alexa其實都還在一個可用性的階段,這個其實大家都在比不是彼此的語音設計體驗多好,而是在比可用性滿足性這一點有多高。為什麼我說今天我在聊一個語音設計典範轉移的事情呢?

圖2:Gartner的Hype Cycle科技趨勢圖,來解釋每個科技的發展區段

這是Gartner所做的Hype Cycle科技趨勢圖,其實就是在講各種科技趨勢的發展的生命週期。你可以大略的看到這張圖有分成「上升期」、「風口期」、「沈澱期」以及「穩定上升期」。在大陸中,風口期就是指大家都在討論的技術,但這個技術未必擁有很成熟的應用範圍,但好像現在非常火。

在「沈澱期」的階段,則代表人類漸漸能理解這些前端技術該如何應用。最後才會進入到一個「穩定上升期」。從圖上面可以知道,AI目前處在一個風口期,感覺大家都認為萬物皆可以AI。但實際上,我們目前還在探索嘗試AI這項技術到底能給我們帶來如何的應用。

圖3:東西方的人工智能產業鍊表

不知道大家對於做語音交互的企業了不了解,在西方我們可以看Google 、Siri等前台到後台的服務。在中國這方我們可以看到阿里巴巴、騰訊,或是在人工智能領域上比較突出的獵戶星空/Orion、若琪/Rokid,這兩家公司也在做前台跟後台的佈局應用,甚至是垂直式的對話開發軟體,可以說是非常的競爭。

圖4:只要掌握的VoiceSkill,你就等於可以開啟很多APP服務

以前我們說的智能語音系統入口總會認為是iphone、Android、Windows,這些手機或桌面平台系統即代表語音系統的應用入口。但為什麼現在的廠商都一直在做「語音軟體系統」這件事情,不單單只是一個語音系統這麼簡單。原因是該語音系統的背後代表著一種「流量入口」的切入點。傳統上我們都在用手指頭去使用各種APP來達成我們的任務。

假設用戶使用了語音系統,他就可以用這個系統取用更多的服務,故此他只要學會了很多的「Voice Skill」就代表用戶可以用「口語」取代他以前用「手指」能做的服務。所以今年中國這邊做更多的佈局的應用,為了就是要搭建更好的生態體系,去拼博用戶的流量。

圖5:CUI跟VUI的比較圖,這也是我第一次聽到CUI。

好,那我們來談談CUI。CUI為Conversational User Interface的縮寫,那麼CUI跟傳統的VUI有什麼不同呢?它並不只是單純指「談話」這件事情,不只是單指「說」這件事情,我們常常在說的「對話與聊天」這件事情其實代表著雙向一來一往的交互涵義。VUI領域我們談了很多,但很少人去了解CUI。

若要我來一句話說CUI,那我會說「CUI是與用戶交互的過程,用不同對話的方式給引導用戶去體驗產品更深層次。」

(筆者在這邊舉手提問,CUI在現今是不是代表GUI加上VUI? 講者答:如果你硬這樣解釋也可以,但今天CUI講的是更多交流的涵義,可能在支微末節處也可以讓你感覺到該產品的特性。由於筆者目前身處在機器人產品公司中,對於機器人產品而言的CUI,筆者認為可以是VUI語音交互+MUI肢體交互+GUI圖像交互這三種結合的結合)

(第二個聽眾提問,為什麼硬要把CUI跟VUI分開?在VUI的領域內更強調的是效率、更強調的是任務的完整度,因此在設計的過程中我們可能會忽略一些設計體感的部分。在業界來說,其實也沒有這麼強迫去硬分出來但如果我們今天談到CUI跟VUI,大家都會認同CUI包含了VUI。)

圖6:Nathan放了天貓精靈的廣告片,接著分享他們在開發過程中遇到的一些問題

去年我們天貓精靈已經賣超過了百萬台的級別。在賣超過百萬台出去以前,我們自己先做過易用性以及產品體驗的測試,在實驗室早就有發現一些問題,但自己判斷災情應該還不會太嚴重。但後來體悟到產品數量超過「百萬級別」,只要是任何的小問題都會被放大。

像是「誤喚醒」這件事情,在普遍的狀況來說因為硬體「拾音」的技術沒這麼好,產品只要收到一些相似的雜音就會被喚醒起來,這一定是會發生的情況。但如果產品在用戶家裡,用戶就會認為這樣的誤喚醒是不是就代表你們阿里巴巴正在竊聽我在說話。或是你們天貓精靈的硬體根本不達標,我拿到的是不是瑕疵品,要解決上述問題,我整整九九六了兩個月。

從產業面的角度來說,天貓精靈今年2018年三月就已經突破兩百萬台了,這是代表一個什麼子的指標涵義呢?去年中國又叫做「音箱元年」,這也代表一個現象就是以傳統視覺GUI為主的APP應用,開發者們都太熟悉了,所以廠商都在利用VUI看看能不能有新的嘗試與應用。

天貓精靈現在有三百多個技能,你可以用來叫外賣、打車、匯款。也由於阿里巴巴目前正在做語音系統的平台開發系統,故綜觀產業鍊上希望所有「服務提供商」跟「系統應用廠商」來使用天貓的服務進而幫助完成用戶想做的事情。

其次,大家都不知道,認為Voice App只能侷限在天貓硬件上完成。其實,這套語音交互系統他也可以在不同系統中完成服務,例如可以在機場購票查詢服務系統、車用載具導航系統。

圖7:GUI有邊界,CUI無邊界,光是一個用戶的意圖,就有很多不一樣的說法。

CUI今天最有機會也是最難的地方就在於他沒有邊界,什麼是「無邊界」?那就是每一個人對於一件事情的表達都是不一樣的。用戶想要做的事情,在CUI的領域裡,我們稱之為「意圖」(Intent)。

舉個例子來說,有人會說「提醒我等一下下午要開會」、也有人會說「設個下午要開會的提醒」,雖然說的語句不同,但是其實背後代表的「意圖」都是一樣的。人類可能用腦袋理解這兩句話是同一件事,但機器必須要去把這些詞拆開在拼起來理解背後的話。即便是我們需要用戶回復「確認」這件事情,美國人會說「YES」、中國人會說「好的,添上」、台灣人會說「恩、對的」。

圖8:VUI的四大交互特徵

VUI的交互特徵有四大點,分別是「交互特性」、「交互場景」、「交互媒介」、「意圖達成」。

其中最特別的是「交互特性」中的切換成本極低。用戶在同一時間可以切換各種不同類型的應用。在傳統GUI的APP領域內,可以說是「需求」產生之後,用戶才會進到產品服務體驗的過程,需求結束之後用戶再從服務出來。

VUI則不太一樣,當需求產生之後,用戶可以隨時切換。例如「天貓精靈,我想買明天上午的火車票」系統會說給我聽所有的火車票時刻。接著,用戶可以說「天貓精靈,我想買明天上午的高鐵票」這就代表用戶可以馬上跳去高鐵APP中,在不同應用之間快速切換。

另一個特色就是「交互媒介」,我們在使用語音就是「解放雙手」,讓我們心智負荷被完全的釋放。這就是為什麼我們說車用載具這件事情這麼適合作語音交互,因為在車上的時候,我們的心智負荷已經達到70%了,人類很難在騰出雙手來作其他的事情,但是不是所有東西都要靠「語音」去達成?我認為答案是「不是的」,用戶只是用他成本最低、耗能最低的方式去達成任務目標而已。

圖9:用戶在語音VUI上經常產生的四大狀況

用戶在使用CUI有一些特別的交互問題分別是「語言多樣性」、「語言差異性」、「語言錯誤性」、「知識依賴性」。

1.表達多樣性:例如一件事情有很多不同的說法,像是「定張台北往台南的高鐵車票」、「我要定明天台南的高鐵商務艙一趟」,一樣都是買去台南的車跳,可是用戶的語句卻不太相通。

2.語言差異性:比如說「我要去台北忠孝東路」,那系統如何去判斷用戶的意圖。這個用戶是「搭計程車?」「買火車票?」「搭高鐵?」「走路?」不同的人講會有不同的意義在,故光憑這一點就十分的特別。

3.語言錯誤性:比如說在ASR會有一個轉換語言的過程,去把用戶所說的東西轉換一個次序,然後在透過NLU去讓機器理解他的事情。如果ASR有些錯字,或是用戶說了一些某些字詞的縮寫,那麼在NLU自然就不能了解用戶所說的話。

4.知識依賴性:例如說我們說「七天」,在常人眼中可能是一個天數的計單位。在中國的話「七天」是一個非常有名的旅館名稱。所以當用戶說「我要七天」,對機器來說背後需要很多的知識去辨別才知道用戶說的是旅館還是天數,因此在CUI的領域中,其實他的技術限制特別高,並不是說要做好體驗體驗就能好這麼簡單。

圖9:天貓精靈的一次語音交互流程圖

如果我們要來聊CUI的體驗,勢必一定要多了解一點底層技術的東西,這些事情是沒辦法被繞過的。在GUI的領域內,我們可能會抗拒一些底層的技術。但在CUI是行不通的。

上圖是天貓精靈的一次交互流程,從圖中可以看到,第一個階段就是「喚醒詞」,大家或許說是不是不用「喚醒詞」,對用戶來說會很方便。連我是設計師也覺得沒有喚醒詞的設定很方便。但為什麼需要這個喚醒詞,是因為這台機器不斷的對環境拾音的時候,對於我們的自然語言理解系統造成很大的負荷,進而讓系統錯誤。

從體驗的角度來說,在不斷的拾音下,用戶也會去懷疑不斷的拾音是不是代表機器出錯了。所以喚醒詞這件事情在目前是最通用常用的手段,但是不是最終最理想的手段,我也認為這件事情還沒有個明確的答案。

其次第二階段是「接收語音」,在硬體上面我們會設計一些燈光、音效進行表態。去跟用戶傳達「我知道我在跟妳說話」。

第三階段是「拾音與識別」也就是利用NLU、NLP去使用知識圖譜去理解用戶背後的涵義。

第四階段則是NLG也就是「語音合成」,基於自然語言理解的結果、基於知識圖譜理解的結果,去組合一段話回復給用戶。GOOGLE 翻譯APP中大部分語音都是使用到NLG。

圖10:從ASR到NLU再到NLP再到TTS,概念上就是「聽得懂才能回覆你」

CUI在前台的表現,很多人都以為只是一段對話過程。但其實背後的技術模塊非常的大,用一句白話來解釋剛剛的四個過程,「那就是我必須要先聽懂你,我才能回覆你。」

--

--

Tom Liou

湯六,一位UIUX工作者,愛畫圖也極度熱愛字形的設計師。一生做過許多離奇工作,曾幫電信公司討過債、在工廠教外勞用illustrator、成為高職教師;甚至闖入新創圈開發機器人。近期的人生成就為「加班熬夜到跟公司的夜班警衛成為好友,還被請吃早餐」https://www.behance.net/tomliou7587