語音平臺之爭打響,Skill 開發能否成為 APP 後的下壹個掘金地丨語音智能特稿

采訪、主筆 | Jes
排版、校對 | 小琳
內容來源:
深圳灣原創

按照媒體慣用的命名方式,2017 年應該算得上是「語音智能元年」,特別下半年以來,國內的互聯網巨頭紛紛加大了在語音智能領域的布局力度。

而語音技能作為配合語音這壹新型人機交互形式而使用的第三方應用,是語音智能中關鍵的壹環。

在深圳灣的這第四篇語音智能特稿中,我們采訪了 7 位行業人士(包括語音平臺商、個人開發者等),從不同角度對語音技能開發的現狀以及行業背後的思考進行了深度分析。

文末留言,留下妳對語音智能領域的看法,期待妳的互動。

▎Skill 因何而生?

近兩年來,人工智能的概念滲透到科技、生活的方方面面,包括機器視覺、語音語義、機器自主移動等。可以說,這些領域都壹定程度上得益於深度學習、神經網絡等所取得的突破性進展,而各領域也正處於萌芽階段。

而從今年上半年開始,局勢似乎開始發生了重大變化。在去年底獲得卓越銷量成績的亞馬遜 Echo 將智能語音捧為了最熱門的風口,除了層出不窮的智能音箱產品,智能語音還在智能家居、車載、可穿戴等設備上承擔起「賦能」的重要任務。

從 PC 到移動互聯網再到物聯網,語音智能的掘起讓人不禁猜測到,喬布斯開啟的觸控(GUI)人機交互時代將被改寫,轉向觸控+語音(VUI)或純語音交互的時代。

與手機、平板等觸控設備所基於的 iOS、Android 系統相類似,語音交互設備也有相應的語音操作系統(語音 OS)。就國內而言,主要有 百度 Duer OS騰訊雲小微、阿裏 AliGenie、科大訊飛 AIUI思必馳 DUITuring OS等。

點擊,查看深圳灣語音智能平臺深度分析

與 iOS、Android 開放給應用(APP)開發者相同的路數,各廠商自行把控語音 OS 底層的技術和功能,將應用層逐步開放給第三方開發者。這些由開發者開發的應用被習慣稱為語音技能(Skill)。

▎妳們所追趕的亞馬遜,從 2011 年開始就為自家的 Skill 開發預留了足夠的多時間窗口

事實上,人機語音交互由蘋果搭載 Siri 的 iPhone 4s 就已經開始進入大眾視野。但其真正形成壹定影響力的時期,是在亞馬遜 Echo 成功將人們對語音助手的認識從手機、PC 端向家居場景轉移之後。

從開拓壹個新的應用場景開始,亞馬遜 Alexa 就取得了良好的開端,名氣迅速蓋過了 Siri、Cortana 等更早出現的語音助手。

接著,Alexa 的產品路線更是有別於其他躺在手機、PC 裏的語音助手。從通過語音指令控制掃地機、智能燈泡、智能掃地機等各類智能家居產品,到開放 API 接入到手機、車機、機器人、智能手表等第三方硬件,Alexa 已遍布各類大大小小的產品。

點擊,查看 Alexa 賦能清單

另外,亞馬遜還做了壹件重要的事情,就是在 2015 年 6 月開放 Alexa Skills Kit(ASK),著手建設 Alexa 的語音技能生態。

起初,Alexa 語音技能的數量只有少數幾個,開發者數量也寥寥無幾。為此,亞馬遜官方還專門設置了 1 億美元的開發者獎勵計劃。

2016 年底,隨著亞馬遜 Echo 銷量大漲,Alexa 的技能數在今年年初突破 1 萬大關。緊接著在 6 月份公布的結果中,這個數字上升到了 1.5 萬,此時,Google Assistant 的技能(Google Assistant Voice Apps)僅有 378 個,Cortana 的技能數還不到 70 個。

「亞馬遜 Alexa 的成功,很大程度上得益於其率先在語音技能生態的布局,Alexa 現在所處的階段就像 Android 上線後由 1 萬個技能發展到 10 萬個技能的階段,而且 Alexa 在語音識別、麥克風陣列、降噪、語義理解,均已經實現全站語音交互。」有人認為,從目前到今後的很長壹段時間內,其他玩家恐怕很難趕上 Alexa 這樣的進度。

事實上,從 2011 年開始,Alexa 就為自己預留了足夠多的時間窗口。

▎國內想做 Alexa 的玩家,Skill 部分都還處於起步階段

從智能語音打磨、發布智能音箱,到開放硬件接口、語音技能開發包等,亞馬遜走的每壹步都算得上是小心謹慎。而後續的反饋也證明了,亞馬遜所走的這些路是正確且可行的。

在 Alexa 這樣壹個成功典範的帶頭作用下,國內 BAT、小米以及各個初創企業紛紛抓住了中文語音的機會,趁 Echo、Google Home 並沒打算入華的窗口期裏,做起了智能音箱,造就了壹番「百箱爭鳴」的景象。

點擊,查看深圳灣百箱爭鳴特稿

同時,BAT、語音技術廠商等也順勢抓住了這個機會開放語音操作系統的語音技能開發部分,讓語音交互的內容更豐富、好玩。對這些的每壹個國內廠商來說,亞馬遜 Alexa 分步驟做的事情,他們幾乎都采用了「幾手同時抓」的戰術。

「在國內,智能語音產品的產業鏈很長,包括前端信號處理、語音識別、語義理解、芯片(方案商)等等,每個環節都有很多參與方,但總的來說,整條產業鏈並未完全成熟。」DeepBrain 創始人李傳豐這麽說道,「前端信號處理還存在壹系列技術難點,語義理解技術並沒有大的突破,智能音箱硬件及背後的語音助手體驗還需要不斷的完善,現有大多數智能音箱產品體驗離用戶期望值依然存在較大差距。」

▎Skill 市場要做起來,依賴於語音平臺的開放度和成熟度

正如大家所見,從今年年初開始,整個智能音箱市場的熱情持續高漲,包括 Rokid 第二代新品 Pebble、京東第六款智能音箱產品 叮咚 TOP、喜瑪拉雅的全內容 AI 音箱 小雅、阿裏 499 的購物音箱 天貓精靈……

特別在小米前不久發布的 小米 AI 音箱 以 299 的低價壹騎絕塵。而在這下半年,出門問問 Tichome 音箱國內版即將上市(其海外版搭載 Google Assistant,預計 10 月份上市),騰訊的智能音箱也即將和大家見面。智能音箱普遍被視為下壹代 AI 語音交互的入口。

出門問問的「問問」智能音箱 Tichome

隨著亞馬遜將 Alexa 打造成壹個開放平臺,這壹做法也逐漸被各語音廠商當作壹個重要方向,大家意識到,要讓語音智能真正做到為萬物「賦能」,就應該不斷提升它的能力,並且讓它被接入到更多產品中。因此,任何壹家特別是 BAT 都不願意放棄繼移動互聯網的下壹個平臺級機會。

除了智能音箱,語音開放平臺也成為今年以來的重頭戲,並在今年下半年開始真正熱鬧起來。

在 4 月份的新品發布會中,出門問問公布即將推出智能音箱這個消息的同時,推出了虛擬個人助理「問問」以及 基於「問問」虛擬個人助理的 AI 開放平臺

在今年 6 月份,經過 1 個月的內部測試後,騰訊雲的語音智能平臺「小微」正式開放,發布新品後不久的 Rokid 也在公司主頁中正式上線了「開發者社區」。

接著在 7 月份的百度 AI 開發者大會上,Duer OS 開放平臺也成為此次大會的重中之重,百度方還表示,希望將 Duer OS 打造成「AI 時代的安卓」。

點擊,查看景鯤深圳灣語音智能峰會分享

另外還有伴隨阿裏智能音箱出現的 AliGenie 系統,以及圖靈的機器人操作系統的 Turing OS 1.5、專註兒童領域的 Turing OS Kids、專為智能硬件打造的 Turing OS Lite

在發布擁有 40+ 項技能(Skill) 的智能音箱「小愛同學」的同時,小米還宣布開放(shuidi.mi.com)水滴平臺,旨在讓開發者為小米 AI 音箱開發更多技能。

點擊查看,了解小米 AI 音箱

在今年,思必馳內部也開始調整戰略,組建了個百來人的團隊,專註於 DUI 開放平臺這壹項目。

在這非常集中的壹段時間裏,幾乎所有涉及該領域的廠商都行動了起來,紛紛布局語音開放平臺。

據了解,國內類似 Alexa 這樣的語音開放平臺就已經有十來家,各家相繼推出自家的語音 OS。這讓人不禁想起智能手機引領的移動互聯網時代,蘋果、Google、微軟、黑莓都在積極打造自家的手機操作系統並經歷了壹場廣為人知的持久戰。

與 iOS、Android、Windows 等手機操作系統內的應用(APP)壹樣,這些語音 OS 的其中壹個重要組成部分也包含了「應用」,也就是技能(Skill)。而技能(Skill)這壹說法最先也是來源於亞馬遜 Alexa 的 Skill。

點擊,查看深圳灣語音技能市場特稿

▎回過頭來,我們再來分析 Alexa 平臺上的上萬個 Skill,都有哪些應用場景?活躍度是怎樣的?

今年上半年,亞馬遜 Alexa 的技能數量呈陡坡式的上漲趨勢。但也有分析者仔細分析了 Alexa 的這壹萬多個 Skills 並表示,平臺上 10% 的技能擁有 80% 的關註度,雖然用戶對這些技能的評價不高甚至偏低,但不可否認的是,這些技能為平臺貢獻了主要的活躍度。

壹名語音技能開發者向深圳灣透露,他最近對 Alexa 的 Skills 進行了初步分析,並發現以下壹些情況:

亞馬遜 Alexa Skills 首頁上推薦的應用僅有 152 個。

亞馬遜 Alexa Skills 首頁推薦的部分應用

在所有技能當中,評論數上千的 Skill 只有 2 個,並且都是聲音類應用。壹個是助眠聲音應用,是用戶使用量最高並且貼切生活的 Skill,不需要任何第三方賬號授權。

而戲劇性的,另壹個評論上千的廣播應用,大概是因為需要第三方賬號授權這樣的步驟導致用戶使用不便,應用底下的好評與差評參半。

從整體上看,主要是睡前(助眠、故事、音樂)和睡後(提醒、鬧鐘、天氣、日程、笑話、新聞)這兩個場景下的 Skills 存在高頻需求。另外,廚房相關場景下的應用(如菜譜、雞尾酒制作等)使用頻率和用戶評論數並不高。

需要提到的是,像智能燈泡、恒溫器等 Smart home 相關的 Skill,以及官方內容屬性的 Skill(如 CNN 等),因需要綁定使用或知名度等原因,用戶基數都不會低。

此外剩下的,還有壹大批不那麽「幸運」且處於「躺屍」狀態的 Skills。

▎上萬個 Skill 活躍度,很多都還是躺屍,為什麽?怎麽辦?

「現實就是那麽的殘酷,這樣的情況其實也正常。」李傳豐認為,其主要原因在於「用戶還沒養成語音交互的習慣」。

圖靈機器人聯合創始人郭家以觸控交互(GUI)與語音交互(VUI)的主要區別講述了其中更深層次的原因:

  • GUI 交互的形式就如同壹個樹狀結構,用戶在壹個垂直任務中點選下壹級菜單,直至任務完成並跳出;
  • VUI 交互就相當於壹個網狀結構(語義網),用戶在進行語音交互的同時,思維是跳躍的,因此會出現隨進隨出的交叉交互現象。

而在目前的語音交互技術下,還沒能完全實現各任務之間順暢對接。況且在沒有顯示界面的情況下,用戶缺乏了解這些 Skills 的介質。

郭家進壹步表示,在這種情況下,引入主動交互的機制,引導用戶使用壹些內容、娛樂屬性的 Skill 是其中壹種可行辦法。

科大訊飛市場負責人表示,不僅是 Alexa,大部分用戶在使用智能音箱這類產品時,除了音樂播放、家居控制等高頻應用之外,對其他 Skills 的使用需求都相對會少很多。

該負責人進壹步表示,導致該現象的壹方面原因是,目前的語音交互解決方案並不能滿足用戶體驗,另壹方面,用戶在消費應用的同時,也需要場景的配合機制,即消費者真正消費的是「應用+場景」,而消費者的使用情況會壹定程度上幫助廠商定位產品。

思必馳市場總監龍夢竹也表達了與後者相類似的觀點:「在現階段,平臺廠商、開發者無法決定消費者的使用,我們要做的是,先做好部分高頻應用,剩下的將由開發者、消費者對應用進行定義、選擇,讓技能開發的方向逐漸明晰起來。」

為此,在 DUI 開放平臺 9 月份正式上線之前,思必馳在深圳、北京、蘇州等地舉辦開發者沙龍為平臺預熱,與此同時,也是為了從參與活動的開發者身上了解他們對開發平臺的需求。

Rokid 產品經理徐超表示,「這種情況在 Android、iOS 內的應用商店也會很常見,從平臺的角度來講,這種情況並不可避免,我們將會更註重挖掘真正能滿足用戶需求、符合語音交互體驗的 Skill。」

從以上幾位發表的觀點來看,在行業剛起步、沒有足夠經驗借鑒的情況下,語音技能開發還沒能完全摸清方向。另外,語音交互方案的不成熟及其明顯區別於 GUI 的交互方式成為了用戶訪問語音技能的主要障礙。

▎當下的難度:開發 Skill,是個浩大的工程

「與其說『語音技能』,還不如說『語義技能』,國內行業剛開始的時候,大家管這個為『功能』,慢慢的,大家都改口說『技能』了,其實,我認為更準確的說法應該是『語義技能』,因為壹切語音技能的驅動都建立在語義理解的基礎上。」李傳豐這麽說道。

點擊查看,李傳豐深圳灣語音智能峰會分享

在語音技能開發的這件事情上,雖看起來是個「簡單幾句語音指令」的事情,但背後的工作量、工作難度卻比我們想象中的還要多、還要復雜。

喜馬拉雅創始人李海波的也進壹步證明,自然語音理解(NLP)、足夠的語料分析是語音技能開發的重要基礎:

「許多第三方開發者開發的 Skill 並不能很好的響應用戶行為和需求,用戶往往在初步體驗過後便放棄使用,而技能的打造並不壹件簡單的事情,這需要開發方是壹個有技術實力的團隊,就比如針對天氣應用的問法就有很多種,壹般需要平臺廠商在深入了解用戶的情況下,對各種有可能出現的問法語句進行壹字壹句的打磨,以提高語音交互反饋的準確率。」

點擊查看,小雅音箱報道

作為國內算得上最早壹批布局語音技能生態的平臺,DeepBrain 內部團隊在成立的這壹兩年內專註於 Skill 開發這壹件事,目的就在於希望將每項功能、體驗做到極致,在某個領域中建立完善的知識圖譜、專家系統。

以「蟲洞」語音助手起家的圖靈機器人現已經開放針對機器人領域的操作系統 Turing OS,面向聊天機器人領域的平臺現已有 60 多萬企業和開發者用戶。在擁有大量開發者用戶的基礎上,圖靈自身選擇了首先在兒童產品應用領域深耕,強化兒童智能產品的教育、娛樂功能。

「人們對工具屬性 Skill 在準確度上有壹定的硬性要求,實際應用當中的 Skill 並不足夠成熟,之所以選擇兒童應用領域,首先,用戶對這類產品的容錯率比較高,其次,其中涉及到的多輪對話內容能夠成為建立機器人圖譜的良好基礎,最後,這類產品、應用是當下兒童的剛需。」郭家說明了圖靈將兒童應用作為戰略重點之壹的原因。

點擊查看,圖靈機器人報道

▎鼓勵開發者開發 Skill,除了獎勵基金,還需要什麽?

正如李海波提到的,大部分的平臺廠商會事先把握天氣、音樂、日程、家居控制等工具類、高頻的語音技能,這也基本上已成為行業內的共識。另外還有像騰訊雲「小微」這樣基於騰訊原有軟件應用生態的語音開放平臺,自開放以來就自帶壹批「好友」。

點擊查看,騰訊雲小微報道

除了平臺本身,這些平臺的企業合作夥伴則成為了第二批主要的平臺開發者,他們主要針對自有產品的特定需求開發相應的技能。用李傳豐的話形容,那就是自給自足的「小農經濟」。

個人則成為了平臺第三批開發者團隊的重要組成部分。這些人要麽是出於個人興趣、要麽抱著嘗試的態度,這部分人有的甚至還有自己的「作品」,比如深圳灣此前報道過的,開發者杜誌鵬借百度 DuerOS 改造出了會說話的樂高機器人。

點擊查看,杜誌鵬和小白音箱的故事

不難看出,除了平臺廠商、平臺合作夥伴之外,個人開發者成為了讓技能商店內容「豐富」起來的主力軍。而吸引個人開發者進駐開發平臺開發技能,也是大部分平臺廠商的重點任務之壹。

為鼓勵個人開發者,不少平臺商都采用了類似 Alexa 獎勵基金這樣的計劃。

在 7 月份的平臺首秀上,思必馳宣布已設立 2 億元的基金,用於鼓勵 DUI 上的優秀開發者和項目,另設巨額補貼,扶持平臺運營;科大訊飛將借助自有的廣告平臺、品牌和資本為開發者提供資源上和商業化上的扶持;阿裏也將推出開發者獎勵計劃,表示目前不會參與合作分成。「砸錢」似乎是各廠商目前能想到的最好辦法之壹。

点击查看,了解天貓精靈

但正如前文所說的,語音技能的開發需要壹批有技術實力的團隊進行壹番精打細磨。想必,成功的語音技能更要耗費不少的人力、財力。

「鼓勵金只能在技能項目啟動初期起到壹定的推動作用,將開發者領進門,至於後續的發展,就需要技能本身形成商業閉環,能夠營利並形成良性循環,否則無法持續下去,其核心還在於是否滿足用戶痛點。」李傳豐如是說。

「開發者不壹定是原本那批 APP 開發者,也有可能是內容創業者。」李傳豐認為,經過長時間的市場教育後,目前用戶為優質內容付費的習慣已逐漸養成,未來基於語音交互的內容付費也有較大的可能性。「用戶消費的內容不會變,但消費形式、場景會發生變化。」

點擊查看,了解思必馳 DUI 開放平臺

另外,如前文提到科大訊飛的觀點,消費者消費的是「應用+場景」,在接受深圳灣采訪的過程中,圖靈也特別強調他們認可的是「AI 場景化」的這壹商業模式。

▎十多個語音 OS 賽跑,如當年的手機操作系統般,未來會構建出大生態?

雖說國內各家語音開放平臺都還處在起步階段,還沒有真正分出上下高低。從目前國內的十幾家語音開放平臺來看,各家都有自身的優勢,開放的範圍也有壹定差別。

能實現全鏈路開放的語音開放平臺,國內應該不會超過 3 家。」徐超表示,Rokid 開放平臺將提供從前端硬件 mic 陣列、遠場激活拾音算法、操作系統,到後端自然語言識別、理解、合成等所有和語音相關的技術與服務,做到比 Alexa 更開放。

在各家都在爭奪智能語音這個入口的情況下,各個開放平臺的競爭是否會重演當年 iOS、Android 等手機操作系統之爭,並形成這兩家獨大的局面。大部分平臺廠商表示,競爭在所難免,但「兩家獨大」的可能性不大。

阿裏天貓精靈產品經理釋空表示,語音開放平臺並沒有形成所謂的「陣營」,同時在語音方面,OS 的概念也不會像手機那麽突出,而後端的服務生態才是各家比拼的重點。

科大訊飛則認為,這樣的競爭並非是個零和博弈的過程。在智能語音這個大入口面前,競爭相當於是共同將這塊市場做大,依托不同的生態模式,各家都在積極探討各自未來的方向,最終收益的還是消費者。

正如「將智能語音打造成物聯網入口」的初衷所訴,思必馳認為,物聯網比互聯網的市場前景更寬廣。而不像互聯網、移動互聯網主要圍繞著手機、PC 這兩類產品,物聯網涉及的產品種類更豐富多樣。

「短期內並不會形成壹、兩家獨大的局面,但就某個垂直領域而言,或許會呈現這樣的局面,比如分別在車載、機器人、智能家居、可穿戴等各個垂直細分領域,則會有各自相應的語音操作系統,但如果時間維度拉長到 5~10 年,最終會剩下 2~3 家居於主導地位的語音操作系統。」李傳豐的這番解釋也壹定程度上印證了上訴觀點。■

感謝以下深圳灣的小夥伴,在本文攥寫過程中給予的大力支持(按公司首字母排序):
阿裏天貓精靈產品經理
釋空;DeepBrain 創始人 李傳豐;科大訊飛市場負責人(姓名不便透露);Rokid 產品經理 徐超;思必馳市場總監 龍夢竹;圖靈機器人聯合創始人 郭家;喜馬拉雅創始人 李海波;語音技能開發者(姓名不便透露)

· ● 深圳灣語音智能專題 ● ·

// 語音智能深度分析 //
語音技能 | 語音 OS 平臺 | 百箱爭鳴 | 語音助手

// 語音智能音箱 //
Echo Show | Google Home | HomePod
微軟 Invoke 微軟音箱 | Facebook | Anker
天貓精靈 | 小雅音箱 | 小米 AI 音箱 | 叮咚 | Rokid

// 語音智能平臺商 //
DuerOS | 騰訊雲小微 | 思必驰
科大訊飛 | DeepBrain | 出門問問
雲知聲 | 圖靈機器人 | 驀然認知

// 方案商 & 開發者 //
羽恒科技 & 酷曼科技
杜誌鵬 | 王興超 | 杜軍 | 宋少鵬

// WARE 2017 語音智能峰會 //
第 II 季回顧
百度景鯤 | 富士康李國瑜 | 海翼陽萌 | Rokid Misa
思必馳趙恒藝 | DeepBrain 李傳豐 | 米唐宋少鵬
哈曼宋柏勛 | LifeSmart 董熠 | Vinci 朱大衛

第 I 季回顧
Alexa Travis Grizzel | 搜狗王硯峰 | 瑞聲科技張金宇
優必選梁嘉豪 | Omate Laurent Le Pen | GGMM 童建超

深圳灣(公眾號 ID:shenzhenware)將持續關註物聯網、人工智能、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊,歡迎聯系我們。微信私人客服:小炫(ID:warexx)。

版權申明:轉載請註明來自深圳灣,並標明網站地址http://shenzhenware.com。轉載,采訪,投稿,團隊報道聯系公眾號:shenzhenware

)
深圳灣 shenzhenware

Written by

深圳灣 shenzhenware 是國內最早也是最活躍的硬件創新者的新媒體和網絡社區,連接全球硬件創新者,連接硬件生態鏈上下遊,連接跨界產品的設計、技術、生產、渠道、商業、創新。

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade