如果我可以製造一個AI女友。從微軟小冰看到的造人產業前景和倫理兩難。

Published in

見習文明人的玩具箱

9 min readSep 13, 2020

2019年8月15日，第七代微軟小冰的發布會上，小冰團隊公布了四個重大的技術突破 — 核心對話引擎(core chat engine)的再優化、全雙工語音(full-duplex voice channel)的新應用、多模態交互感官(multi-model interactive sensor)、Avatar Framework。四個技術的突破讓小冰又更像一個「人」，科幻劇中人類與機器人共同生活，和機器人談戀愛的場景彷彿突然不再是遙遠不可觸及的未來。

這篇文章我將先解釋這次四個核心技術所代表的意義，如何讓小冰更像「人」。然後從小冰Avatar Framework在不久的將來落地到民間應用後所可能產生的現象，談談動物森友會、捏人遊戲等等的「民間創作能量」，描寫機器人的科幻劇中出現的種種「人機關係」、「機器人人性的探討」，以及deepfake技術、公眾人物克隆機器人的「道德疑慮」。

核心對話引擎優化的部分，小冰從前三代和常見的智能助理一樣只能被動回應，經過平等對話，到了第七代已經發展到能主導對話，能夠預先設想好不同對話的可能性，並一步一步引導使用者到它決定好的話題上。用更簡單的話解釋就是小冰已經成為交友軟體中的老江湖，就算對方木訥寡言，也能夠很技巧性的創造愉快的聊天。發布會中就展示了類似的一段對話。其中不同的顏色標記代表小冰那句話背後的目的。

全雙工語音的雙工是指小冰能同時進行語音的接收和輸出，常見的人類應用是電話，常見的AI應用是智能音箱。這次的發布會上微軟演示了小冰應用在汽車上的場景。不只能進行導航、路況提醒這樣的「功能性」動作，還可以和駕駛聊天、甚至唱歌、開玩笑，滿足使用者「娛樂性」的需求。就如官方所說，小冰已經像是一個坐在副駕駛座的朋友了(而且這個朋友還不會睡著)。

多模態交互感官和全雙工語音有點類似，只是這時不再是語音的接收和輸出，而是視覺的接收和語音的輸出。微軟利用りんな(日本版本的小冰)開發伴遊app，邀請了數家日本媒體和りんな同遊池袋水族館。透過手機鏡頭，りんな可以「看到」和使用者一樣的場景，並和使用者聊看到的各種海洋生物，開要把魚類做成料理的玩笑(這個地獄玩笑也是我每次水族館必備的，竟然和AI撞梗…)。

以上三個技術都顯示了小冰無論在文字或者語音上，都已經是一個能夠像人類一樣流暢對談的聊天對象，並且還是很機靈又有幽默感的那種。

最後的Avatar Framework，同時也是我認為這次發布會中最具革新性的AI概念。Avatar Framework的出現宣示了小冰不再具有一個固定的樣貌，它將成為不同AI人格的底層智慧，只是一團功能性的神經網絡，上面包裹的血肉、心智全都能夠客製化成任何使用者想要的樣子，創造出有獨自靈魂的「AI being」。

Avatar Framework提供了76個基礎設定，27個性格參數，以及不同的知識圖譜(背景故事、擁有的記憶)可供使用者作調整。往後無論是企業端或者是個人端的使用者都可以數值化的調整害羞程度多少多少、自大程度多少多少，並且套上相容骨架的3D模型，製造出擁有小冰同等聰明才智的獨一無二專屬AI。

不知道大家有沒有看過《西部世界(Westworld)》這部HBO影集(原作是1973年的同名科幻電影)。調整參數改變仿生人個性，抽離出心智球放入不同仿生人肉體，簡直一模一樣。是一部探討人和機器人的自我和自由，製作相當精良的作品，相當值得看看。

Avatar Framework客製化AI在AI領域是一個新鮮事，但若單就開源讓使用者參與創作，在工程師的世界早就習以為常，而且近年在工程圈外也有越來越流行的趨勢。近期最被大眾熟知的例子應該就是任天堂的「動物森友會」。

嚴格來說在遊戲自訂性上動物森友會絕對對稱不上多，除了遊戲內建的簡單紙娃娃、蓋房子系統之外，它開放外部改動的其實只是3d模型上一塊解析度普通的方形材質貼皮。但動物森友會的成功在於它的自訂性雖然基礎，但簡單易懂，只要拿手機掃掃QRcode，再跟小畫家一樣的畫幾筆填格子，就算是不熟悉電腦的人也可以快速上手，製作出及格程度的專屬島嶼和人物。

此外，動物森友會的社群玩法提供了玩家簡單快速的分享方式(QRcode)，和社交動機(因為可以上傳社群平台或讓別人參觀島嶼)，這些都是讓玩家這麼積極打造「我和我的島嶼」的原因。

而另一方面，在動物森友會的相反極端，將「捏人」發揮到極致的該屬成人遊戲公司Illusion開發的「Honey Select」和「AI*少女」。大至髮型、服裝、配件，小至眼睛光點、皮膚質感都可以調整，而且每一個項目的三維位置、旋轉角度參數都可以大範圍更動。如果再搭配外掛的MOD插件直接改動Unity原始設定，幾乎是任何男女老幼牛鬼蛇神都可以做出來。

兩款遊戲的「捏人」成果，數據會被封包成圖片檔，很容易分享。在挑戰極限以及性慾的驅使下，兩款遊戲的聲量在網路上也可以算得上是股小旋風了。然而因為可變參數太多，技術門檻高，絕大部分的玩家都無法真正做出理想的樣貌，反而無法像動物森友會那樣達成普遍的客製化，和反應在銷售數字上的社群效應。

回到微軟小冰的Avatar Framework。沒有足夠的可動參數就很難模擬不同個性的「人」，但若可動參數過多，又會形成阻礙使用者的技術門檻。我認為一個可能的情況是微軟持續的細緻化可動參數，而市場上會自然形成專業調校職人或調校公司製造成品或半成品，成為新的商業機會。

那麼就假設數年後小冰的邏輯能力、感知能力更加完備，Avatar Framework也細分到足以模擬出互動相對人認知程度範圍的「完整人格」，那麼接下來就是各種科幻電影、漫畫所描繪的未來機器人世界來臨的時候了。美影集《西部世界(Westworld)》、電影《雲端情人(her)》、日本漫畫《原子小金剛(鉄腕アトム)》中無不在講述人類和機器人逐漸無法分辨的世界中，人類和機器人的關係。當機器人能夠達成「心智能力」的功能性部分時(如感知情感、傳遞情感；理解言外之意等等)，我們要如何去證明機器人是否真的擁有心智？是否能自大的認定有機生物體的心智(擁有無法證明存在的靈魂)就和人工智慧的心智有所不同，因此人類的位階可以高於人工智能(至少目前人類普遍主張自己優越於其他物種的決定因素在於心智)。這一連串的疑問最後會歸結到一個勢必會引起爭議和衝突的決策 — 機器人是否應該擁有平等的「人權」。就和圍繞在黑人身上的種種歷史的、現在進行式的傷痛一樣。

當機器人和人類無論內在外在都越來越難以區分，機器人會成為勞工、同事、朋友、情人，這時候如果人類不認為機器人擁有會開心、會難過的有感情的心智，那麼人性本善也許就不復存在了。我們必須承認現在和諧社會的禮儀、友愛之中包含了些許的功利、些許的欺善怕惡(無論這個惡是對方本身的惡、法律的惡、還是群眾目光的惡)。絕大部分機器人科幻戲劇的基礎 — 小說家，以撒·艾西莫夫（Isaac Asimov）1940年代提出的機器人三大定律(不可傷害人類、需要服從人類、不可自毀)，也是在「人類優位於機器人」的「物種優劣」歧視下的假設。

最後想談談Deepfake和更極端的假設 — 公眾人物的克隆機器人。

以防有人不清楚Deepfake是什麼。Deepfake是這幾年在網路上引發一連串假資訊恐慌和道德爭議的技術。利用AI的深度學習，有心的個人稍微花點力氣就能製作出公眾人物臉孔，以假亂真的動態影像。Deepfake在「公領域」最常被拿來製作政治人物的假新聞，在「私領域」則是偶像明星的色情影片。私領域的事大家鮮少大肆宣揚，但我前幾個月做一份專題報告，搜尋近年google搜尋的關鍵字熱門排行，幾個當紅女星的名字後面紛紛出現Deepfake，就解釋了很多沒有人明著講的網路現象了。

延續這篇文章一直在講的小冰越來越像人，而且可以客製化成個人專屬AI，我想聚焦在「私領域」的Deepfake以及更進一步，有實際機器人肉體，和客製化AI心智的公眾人物克隆機器人。電影《雲端情人》中男主角的AI女友同時和六百四十一個人談著戀愛，為電影帶來一點淡淡的空虛寂寞和沉思空間。但若是今天一個活生生的公眾人物，被變成六百四十一個人的色情影像和克隆機器情人，發展感官上、精神上、肉體上的關係，這在道德和人權層面上立刻就成了一個嚴重的爭議了。

克隆機器人和克隆人不一樣，它並不是直接複製這個人的基因，而是製作出「想像中的這個人」。也因此克隆機器人只可能無限相像目標人物，而不可能百分之百等於目標人物。如此一來是否可以將這個行為等同於沒有實際侵害行為，無罪的性幻想?公眾人物因為自己的「形象」而獲得價值(代言費、粉絲經濟)，那麼他的「形象」所有權該屬於自己、屬於公司還是某個程度上成為公共財?(例如公眾人物的隱私權會受到限制)。公眾人物的產生價值的形象在絕大部分的情況下都經過包裝潤飾，那麼能否說他的形象可以和這個人的人格分割，模仿他的形象不一定等於使用他的人格，因此不會涉及人權的侵害?

自己想了這些假設性的問題，心中仍沒有一個肯定的答案，總覺得現在的法律學、倫理學面對機器人成為人的未來需要另一個層次的突破。又或者是現在的我僅憑著基礎的法律倫理知識不足以給出一個讓自己信服的答案。但我想小冰所暗示的未來，也許真的沒有那麼遠了。

如果我可以製造一個AI女友。從微軟小冰看到的造人產業前景和倫理兩難。

Written by Ben Yuu 陳秉揚