數位科技系列：人機語音溝通

施登騰

Published in

數位轉譯職人誌三刀流

16 min readDec 24, 2018

本文於「泛科學網站」同步刊登。文題改為：【剖析霍金的「代言人」：人機如何透過語音互動溝通？】

前天傳來史蒂芬・霍金博士76歲長眠的消息，舉世同哀。早上開電腦上網後，看到有更多他的相關消息與回顧，這些熱烈討論從昨天到今天都仍持續不斷著。

圖片來源：https://margethelarge.com/tag/stephen-hawking/

曾與家人看了他的傳記電影「愛的萬物論（The Theory of Everything）」（頗喜歡這中英文片名），但沒看他的「時間簡史」，只借閱過他親筆自傳「我的人生簡史」。看著電影再透過戲劇呈現霍金博士的生平，算來是個奇特經驗。因為比較熟悉的霍金博士，是那個因罹患漸凍症，後來失去說話能力，需透過電腦語音代言，卻仍不減溝通能力與幽默的霍金博士。當然，電影中也演出這段，也了解重拾這個能力，並不簡單。

圖片來源：http://uk.businessinsider.com/the-theory-of-everything-stephen-hawking-computer-voice-2015-2

網路上可以找到霍金博士透親自說明如何讓電腦語音協助他發言的影片～「Stephen Hawking — How is he talking?」，很建議點選聆聽他的熟悉聲音。最近還看過一個網站，提供「霍金聲音生成器 (Stephen Hawking Voice Generator)」線上數位服務。

霍金博士在影片中提到，他當時使用的語音合成軟硬體設備，是「劍橋精益通訊公司（Cambridge Adaptive Communication）」的David Mason幫他裝設在電動輪椅後面的，使用的是一款名為「Equalizer （等化器）」的軟體，由加州電腦專家華托茲（Walt Woltosz）於1985年幫霍金博士研發的，這在他的自傳中也有提到。

而這合成的聲音不僅像機器人說話，而且還有美國口音，根據「Meet the man who lent Stephen Hawking his voice」這篇報導，Rachel Kraus引述Wired雜誌的深入報導，寫道這個聲音是Dennis Klatt這位美國MIT學者，以他自己的聲音透過電腦合成的。因為在80年當霍金博士無法口語時，找到Dennis Klatt所合作的DECtalk這家公司的「語音合成軟體（Speech synthesizer）」，透過文字輸入方式進行語音合成（Text-to-Speech，TTS）。

霍金親述他是如何透過科技可以說話溝通的。圖片截自：https://www.youtube.com/watch?v=UErbwiJH1dI

影片來源：https://www.youtube.com/watch?v=UErbwiJH1dI

目前可以查到霍金所使用的Equalizer語音合成軟體已經提供開源碼，希望能嘉惠更多有需要的人，正式的官方名稱為「Assistive Context-Aware Toolkit (輔助式語意感知工具包)」，適用於有Windows 7以後的版本，使用C#語言，不支援Mac系統。有需要進一步資訊的話，看Wired雜誌在2015年8月的這篇報導「You Can Now Use Stephen Hawking’s Speech Software For Free」會更清楚。

圖片來源：https://singularityhub.com/2010/05/03/how-does-stephen-hawking-talk-video/#sm.0000149fo1gfv0ctkutpgld65rd9w

由於漸凍症的緣故，霍金博士是逐漸失去說話能力，即使電腦語音的拼字輸入方式，也因症狀加劇，而到後期，霍金博士甚至需要借助IR去偵測臉頰肌肉運動進行輸入控制，使用的是Words Plus公司的EZ Keys，只要輸入幾個字，前方螢幕會據以顯示候選字句，讓霍金博士以臉頰的微幅動作控制選字句組合，然後再透過Equalizer轉成聲音檔，也就是那個美國口音的機器人聲。據Rachel Kraus所引述Wired的報導，霍金博士不僅在DECtalk公司進行語音合成軟體升級時，要求使用原聲音檔，甚至後來Intel為他建置新的軟體時，還在他的堅持下，找回Dennis Klatt的原始聲音檔去進行軟體升級。建議大家可以欣賞「Master Of The Universe： Stephen Hawking」這部紀錄片，片中的22:10~22:40這一段就有霍金博士以臉頰動作輸入文字的畫面。

圖片來源：https://www.amazon.co.uk/b?node=10068517031&ref=alxvm_uk_go_0018

這令人遺憾的新聞確實讓我想到「人機互動 (HCI)」的發展（很抱歉），最近購買Amazon Echo跟Echo Dot來測試，常常在早上就使用，會「請」Alexa服務，說聲「Alexa, Play music.」，Amazon的語音助理Alexa，就會幫我播「70年代電台音樂」，也玩過「Jeopardy 猜謎」，這是24,000多個Alexa Skills（技能）提供的服務（根據2017.12數據）。Amazon也開放Alexa Skills Kit，歡迎第三方參與開發。iOS的Siri自然我也常用，因為上下班搭車移動中習慣戴耳機，所以都會長按耳機控制鈕呼叫出Siri，要她播音樂或撥電話。但有許多科技報導說得很直白，直接指出Siri不僅被遠遠拋在Amazon Alexa與Google Assistant後面，更不用說相關應用根本跟不上Amazon Alexa Skills 與Google Me-Too的第三方應用那樣的快速發展。也有篇科技新訊提出相關分析，並特別點出三家公司在發展「Voice First Platform」這種新型個人數位服務與應用平台上的顯著差距，或許會成為影響三家公司發展前景的致命關鍵。

此外，再談談原音重現。就像霍金博士的語音合成的原音是Dennis Klatt。iOS Siri在發音上非常接近自然人聲，而最常用的女音則是 Susan Bennet的聲音組合的（見下圖），而男聲版本的，可以查到資料的是幫英國Siri版配音的Jon Briggs，他算是iPhone 4第一代Siri的男聲。

而根據Susan Bennett接受訪問的錄音內容「Siri is dying. Long live Susan Bennett」，她提到她在2005年接到一個配音委託，當時她不知道這些錄音是做什麼用的，整整花了1個月，每天4小時去錄許多短句，後來還是同事在2011年問她，她才知道是用在Siri的人聲語音服務上。只不過Apple也未曾正式承認Susan Bennett就是Siri這個機器人助理的幕後人聲。但對Susan來說，至少CNN請了專家鑑定確定，她在TED以「Accidentally Famous: The Story Behind the Original Voice of Siri 」為題演講過；但根據報導，Jon Briggs卻還接到Apple電話，被要求不要公開談論他就是Siri的男聲，理由就是「不希望Apple的數位語音助理被聯想到特定的人」。他們兩位曾同時被訪問過這些特殊經驗，有興趣者可以看這篇訪問稿：「Hey, Siri! Meet the real people behind Apple’s voice-activated assistant」。

談談在發音上越來越接近人聲的數位語音助理（Digital Voice Assistant）吧！

之前在「The Voice of Museum」這篇分享中（博物館學會網站刊載連結），曾於針對博物館科技應用談到「數位語音助理」與「語音服務」時，有提到如下的內容：

無論是把 Echo, Siri, Cortana稱之為語音助理（Voice Assistant）、虛擬助理（Virtual Assistant）、人工智慧助理（AI Assistant、AI-Powered Virtual Assistant），而且就像「The Surprising Repercussion of Making AI Assistants Sound Human」以及「Why Do So Many Digital Assistants Have Feminine Names」談到的議題，我們對人工智慧科技服務的具體想像，其實不是機器人助理，而是更接近「人」的虛擬助理，無論是在語音對答服務時更像真人的語調，或者是在命名與性別上。文章中提到所謂的「依存互動Contingent Interaction」，並引用研究說人類比較能夠對可以來回反應、對話與互動的人事物有所連結。報導也都提出不僅「擬人Humanlike」是具體目標，兼有個性與實用性（Personality and Utility）的虛擬助理服務也是眾所企求的。這也讓我想起在「AI上博物館」這篇分享中，提到Deeson 廣告公司的科技策略總監Ronald Ashiri在 「How Museums Are Using Chatbots」提到Giving chatbots a face（賦予聊天機器人具形貌）。就從上述所分享的實際案例來看，目前的人工智慧發展已讓「想像」逐漸成真。

其中所提的數位語音助理的Humanlike這種（擬人化 anthropomorphic）傾向，以及命名女性化的特徵，在在顯示數位助理的研發是在追求一個全知的AI語音助理，或許在具體樣貌上，就會像是鋼鐵人的人工智慧助理：J.A V.I.S. (Just Another Rather Very Intelligent System的縮寫) 一樣。

圖片來源：https://www.theverge.com/2015/4/26/8499669/software-behind-siri-named-jarvis

在前面有提過，霍金博士透過EZ Keys軟體選擇字句，再由Equalizer軟體轉譯成聲音。這種Text-to-Speech（TTS）的數位轉譯形式對現在的數位技術來說其實是很幾單的應用，因為已有很多App都能支援，即使是逆向工程：Speech-to-Text（STT），也已經很普及，像是現在手機輸入法中內建的語音輸入法。

特別再提這些，是因為「文字」與「語音」都是與 AI數位助理溝通的重要媒介與元素，就像在「AI上博物館」與「AI上互動娛樂設計系」這兩篇分享所介紹的許多數位語音應用一樣，在博物館與其不同業界所使用的「AI聊天機器人」，不管是「純簡訊服務類（text messaging service）」、「即時對話服務類（chatbot conversational service）」、「問與答諮詢類 Q&A chatbot service」類，基本上，人機互動都是透過「文字」或/與「語音」溝通的。而且像是Google 就有研發專屬的the Speech Synthesis Markup Language（SSML 語音合成標記語言）技術來支援語音合成應用程式，並操控互動語音系統，使得與AI數位語音助理的對話，就像跟某人說話互動一樣。

舉兩個實際的應用案例：

Google Story Speaker (互動故事閱讀器)

基本概念是將在Google Doc網路文件編輯器上所編寫的互動腳本（文字檔），透過Add-On加入Story Speaker應用程式，在Google Home智慧管家或Google Assistant語音助理上以語音播放，讓「文字朗讀功能（TTS）」再加上「語音辨識功能（STT）」，就讓Google Home當個Story Speaker，而且還會在特定段落詢問閱聽者的決定，提供不同路線的故事內容，導引到不同的故事結局。

圖片來源：https://experiments.withgoogle.com/voice/story-speaker

Google Grilled Murder Mystery（互動偵探角色扮演）

此應用的概念是讓玩家在這個語音互動應用程式中的謀殺案中扮演偵探的角色，玩家透過訪問四名嫌犯中的每一名去調查餐館老闆的命案的線索，以確定誰才是兇手。此應用程式也使用了SSML 語音合成標記語言技術，所以玩家就像是透過一位「助理」的協助，進行命案的偵查。

圖片來源：https://experiments.withgoogle.com/voice/grilled

所以無論與語音助理之間的溝通，是透過TTS或STT形式，在未來，透過人工智慧、自然語言處理、機器學習等先進技術的導入，要在現實生活中有J.A.V.I.S.協助打點一切，並提供全知的資訊服務，並非不可能。

「Context語境」、「Language語言」、「Reasoning推理」被視為人工智慧的三大挑戰，但如果是要考慮的AI數位語音助理之研發應用的話，它們也是機器學習、自然語言處理兩項技術的重大挑戰。現如今，特別是金融是一個全面採用自動化技術的行業，也就是大家熟悉的FinTech趨勢。針對「數據資料導向任務（Data-Driven Task）」的自動化來說，AI技術已被充分運用了，AI財經機器人已能自動撰寫處理「基金財務報告 Fund Reporting」、「損益分析報告Profit & Loss Reports」、「信用管理報告Credit Management Reporting」、「銷售報告Sales Reporting」（資料來源）。看來，許多挑戰已隨著應用需求與科技發展，而逐漸被克服。

而我的重點是，人工智慧技術、機器學習模型已經能夠自動判斷文本的結構和含義，像是根據霍金博士輸入的幾個字，自動判斷後提供「選用字句（Candidate Sentence）」，有效減少輸入次數；或者說像前面例舉的「Grilled Murder Mystery」智慧語音應用。

所以，會很期待在TTS、STT、AI、Machine Learning、NLP等技術的持續發展，以及典藏資料庫的內容支援之下，有機會在博物館、商展、展演機構見到「全知型」互動對話導覽服務的出現。

下圖是使用自然語言處理（NLP）技術，利用分析器（Parser）將一段「畫作說明文字」（梵谷自畫像）進行語法分析（Syntactic analysis）的結果。這段「畫作說明文字」在數位處理分析後，由分析器解構成各個詞彙單位，並呈現其結構和含義。語法分析也用來建立樹狀的語法樹（syntax tree），透過中間表述提供詞彙單位串流的語法結構。

該段說明文字如下：

「Vincent van Gogh painted his first known self-portrait in 1886, following the model of the 17th-century Dutch artist Rembrandt. But by the time he made this work, a year later, he had clearly shifted his allegiance from the Old Masters to the Parisian avant-garde. Under the influence of Neo-Impressionist color theory, he based this painting on the contrast of complementary colors.」

Syntax分析結果見下圖：

梵谷自畫像，圖片來源：https://artsandculture.google.com/asset/self-portrait/mwF3N6F_RfJ4_w?ms=%7B%22x%22%3A0.5%2C%22y%22%3A0.5%2C%22z%22%3A8.531893819927184%2C%22size%22%3A%7B%22width%22%3A3.371084329773084%2C%22height%22%3A1.2374999999999994%7D%7D

也就因為這些強大的數位技術支援，我們與機器的「文字」或「語音」互動對話，都能更自然，人工智慧更思考能力，人機互動更接近我們的日常行為。所以數位科技讓因為漸凍症無法言語的霍金博士仍能繼續寫作、演講；相信數位科技也打開了與具有龐大內容的數位語音助理/電腦/資料庫進行深度互動的機會。

我個人認為的理想數位導覽應用典型，應該是是巴西奧美廣告公司與IBM公司合作，於2017年6月在巴西聖保羅州立Pinacoteca博物館（Pinacoteca do Estado de Sao Paulo）所推出的數位導覽服務～「The Voice of Art / with WASTON」。

這個App使用的數位語音技術是由IBM研發的WATSON。研發團隊為了培養WATSON的應答能力，共花了6個月時間與西聖保羅州立博物館策展人和研究員合作，以大量的書籍、報導、傳記、訪談、網路資料、影片讓WATSON透過機器學習累積對於藝術作品豐富知識與答案，並擴大可對話與提供回覆的範疇，WATSON就像個全知的數位導覽員。

小朋友透過導覽器問說：「你喜歡踢足球嗎？」圖片來源：截圖自http://www.adweek.com/creativity/

在「The Voice of Art / with WASTON」的宣傳影片中，研發人員說：「用預錄的聲音介紹藝術史，並不是真正的互動。」，所以希望讓「The Voice of Art / with WASTON」與使用者有更自然的對話。

看著影片中，有位小孩則看著肖像畫，問畫中人物說「你喜歡踢足球嗎？」。

我想「The Voice of Art / with WASTON」做到了！！！！

數位科技系列：人機語音溝通

Written by 施 登騰

Written by 施登騰