數位科技系列:6款Google Experiments 所提供的數位參與/協作/應用的想像~從核心元素與創意關聯談起

施 登騰
數位轉譯職人誌三刀流
24 min readJun 12, 2019

--

技術與創意有機組合

「開發成本高」、「形式組合多」、「軟硬體變化快」等因素是數位科技開發專案必須去面對的。若加上數位科技的應用場域、服務/使用對象、主題內容、業主要求….等,長島引出非常多樣的應用成果。也因此,必要的模組化、一源多用外,在企劃與構思階段如何有效率、有系統地透過「內核心」+「外創意」的企劃以執行「技術與創意有機組合」是絕對必要的步驟與職能。

此篇將進一步說明「一源多用」的創意發想概念,並示範在單項數位科技/創意的應用上,如何有系統地進行跨域(實際場域、專業領域)、延伸(技術模組化/加值型的應用)的創發。

從「(內)核心」到「(外)創意」架構的系統分析上,本篇就以下面6個分別在【Experiments with Google】網站中,歸類於「AI experiments」、「voice experiments」、「arts and culture experiments」等項目分享的數位科技為主要案例。

這些範例有些目前只提供內容瀏覽(overview);有些已經可以體驗(launch experiment);有些甚至分享開源碼(get the code)。依據下面組圖上左到下右條列如下:

  • AutoDraw:透過神經網絡猜測使用者繪製內容後,即在繪圖過程中,提供各式各樣的「圖示icon」選項列。( Chrome experiment)(overview+launch experiment)(發表於2017.4)
  • Quick, Draw! :這是一個以機器學習所構建的遊戲,透過神經網絡試圖猜測使用者正在繪製什麼,類似於畫圖猜題的遊戲。( AI experiment)(overview+launch experiment)(發表於2017.5)
  • Sketch-RNN Demo:透過累積的電繪塗鴉資料庫,使用者經選定想畫的圖像(例:貓、馬、車….)後,只消畫上幾筆,就會由AI根據資料庫圖像協助完成個人畫作。( AI experiment)(overview+launch experiment)( 發表於2017.6)
  • Story Speaker:能將Google Doc網路文件編輯器上所寫的互動腳本(文字檔),透過Add-On加入Story Speaker應用程式,並語音播放與使用。( voice experiment)(overview+launch experiment)(2017.11)
  • Scribbling Speech: 使用者以語音描述想法、場景、或事物,此應用程式的機器學習和神經網絡功能就能即時在辨識語言後連結圖像,將話語轉換為動態視覺。(arts and culture experiment)(overview+launch experiment+get the code)(發表於2018.9)
  • Draw to Art:透過塗鴉畫圖即可搜尋數位典藏資料的實驗。(arts and culture experiment)(overview only)(發表於2018.10)

這幾款應用是在2017 .4~2018.10間於experiment with Google發佈的作品,個人常到此網站瀏覽,一來是掌握數位趨勢,二來是為藝術文化尋找科技技術導入的機會與方式。話說回這6款應用,基本上在2017年發表的【AutoDraw】、【Quick, Draw!】、【Sketch-RNN Demo】等幾款都是AI Sketching (人工智慧塗鴉)的應用,也就是辨識使用者的塗鴉後提供「icon選項」、「辨識答案」、「塗鴉接龍」等功能。到了2018年,有更多延伸應用,像是:【Scribbling Speech】、【Draw to Art】等都是在2017年所發展的AI Sketching (人工智慧塗鴉)應用的基礎上:「辨畫給圖 draw-to-image」、「辨畫給文 draw-to-text」、「依名給圖 text-to-image」…等等技術,然後再加入語音辨識的「語音轉文字 speech-to-text」、「文字轉語音 text-to-speech」等功能,加值成為具有「語音即時互動繪圖」的【Scribbling Speech】、「數位典藏+畫圖搜尋」的【Draw to Art】、「語音助理+語音朗讀」的【Story Speaker】。

截圖自:https://experiments.withgoogle.com/sketch-rnn-demo

上圖要示意的是運用在此篇所介紹之數位應用中最重要的「圖像資料庫」,也就是那一張張都是由使用者以線上/載具電繪介面(e-drawing interface)所繪製的具有「物件名稱(上圖例為『郵輪』)」+「線繪圖(sketch)」+「繪圖筆序(drawing sequence)」等等資訊的圖像檔。這些圖像檔不僅可以作為【AutoDraw】、【Quick, Draw!】、等幾款AI Sketching的「圖像辨識資料」,也能在【Sketch-RNN Demo】的使用者選定「繪製物件(例如『郵輪』)」後,只消一兩筆,就能以此「圖像資料庫」去完成後面的筆劃。這圖像資料庫不僅會隨著使用而不斷增加數量,也在不斷的機器學習過程中,配合完成更直覺、更適切的圖像辨識。而「它」所代表的「使用者繪圖記錄」、「使用者畫作成品」、「圖像資料/資料庫」更是此篇所介紹6款Google Experiments 的「內核心」。

如果參照【數位科技系列:談數位科技一源多用的「內核心」與「外創意」】系統性去分析這些「外創意」的成果,就會發現間的共同元素與邏輯聯繫就是針對使用的電繪圖去導入圖像辨識之機器學習(machine learning)與神經網絡(neural network)的核心技術。以下這圖,就是根據6款Google Experiments的共同元素與邏輯聯繫之分析圖。 後面章節也會再說明分析。

共同元素與邏輯聯繫之分析圖。自繪。

數位群策群力之創意應用

一鍋一爐一鏟就能讓廚師運用材料展現「廚藝」去扒、汆、炒、炸、烤、涮、溜、煎、煨、蒸、熏、燉、燒、燜、燴、醬、爆、焗、醃、糟、醉、拌、熗、鹵出不同菜色。(資料來源:烹飪十八法伙房28法)。手藝各有巧妙,菜式才能多樣。前段提到的,由不同使用者繪製各種物件之「圖像資料庫」,也是透過數位參與的方式而收集建置的,1,000人畫就有千貌,10,000人畫就有萬象。當個人數位參與勃發、也更為方便,所積累的群眾「力」與「量」就越發受到期待,群眾募資Crowdfunding、群眾協作Crowd Collaboration、群眾外包Crowdsourcing、 群眾創新Crowd Innovation …..都是。其實若以結果論去分類,大抵也就是兩類,也就是:

  • 單一指向式成果的「殊途同歸」(希望匯聚群眾洪荒之力的「眾志成城式期盼」)。
  • 多元開放式成果的「同源殊徑」(希望匯聚群眾多元創意的「分進合擊式想像」)。

單一指向式成果的「殊途同歸」者,就以「群眾募資Crowdfunding」最具代表性就是Kickstarter、嘖嘖、FlyingV 這類募資平台。多元開放式成果的「同源殊徑」,就以「群眾協作Crowd Collaboration」最具代表性,個人很欣賞【The Jonny Cash Project】以及【The Sheep Market】,而創作這兩個數位應用的核心人物就是Aaron Koblin。

Aaron Koblin畢業於UCLA,擁有設計/媒體藝術碩士學位,不僅於2008~2015年在Google領導資料藝術團隊(data art team),也曾獲得Smithsonian Cooper-Hewitt博物館的「國家設計獎 National Design Award」以及兩座葛萊美獎,作品更曾獲紐約MoMA美術館、英國V&A博物館、法國龐畢度中心所收藏。

他的作品與專案擅於經營議題式的數位參與設計,使其共創成果變成數位作品重要的組成內容,也因此他特別重視「介面interfadce」的角色與功能。他認為「介面」不僅能作為強有力的敘事裝置,「介面」本身就是訊息。就像他在TED演講中分享的:

「19世紀文化由小說定義;20世紀文化由電影定義;21世紀的文化則將由介面賦予意義。」
“The 19th century culture was defined by the novel, the 20th century culture was defined by the cinema, and the culture of the 21st century will be defined by the interface.”

Aaron Koblin與知名音像藝術家/製作人Chris Milk所共同創作的【The Jonny Cash Project】專案就是為向Johnny Cash致敬的網路共創平台。此平台將Johnny Cash的 “Ain’t No Grave” 經典MV影片給拆解成共1370張圖/影格(frame),要向致敬的歌迷在登錄網站後,可在網站中點選【Contribute】 項,並從平台隨機提供(或重選)的3張圖/影格中任選一張,然後透過平台提供的線上繪圖器畫出自己心目中的Johnny Cash畫像,畫像送出後,即貢獻了 “Ain’t No Grave” 經典MV影片的其中一個影格。

【The Jonny Cash Project】網站首頁。圖片來源:http://www.thejohnnycashproject.com/#

此專案就是使用「群眾協作」方式,共有超過25萬人參與,因此有20多萬張“Ain’t No Grave”的繪圖影格,可讓“Ain’t No Grave”長度達1370張圖/影格至少每張平均都有200多個版本,而這幾十萬張繪圖影格不僅有「格數編號frame no.」,也有畫風的歸類(sketchy, realistic, abstrac..),更重要的是每張繪圖影格還有專屬資料,包括「創作者姓名」、「居住地」、「畫圖時間」、「評等」,畫圖過程已被記錄可重播。

個別「繪圖影格」的基本資料。截圖自:http://www.thejohnnycashproject.com/#/explore/TopRated/5e5f516286fa5ef70a6da832eef9e84a465927b2

因此,也就是當【The Jonny Cash Project】再透過隨機/分類功能去揀選歌迷所繪的/追思的Jonny的不同影格時,所連接播映出的就是一個個透過歌迷群眾協作,每次有1370張/位創作,所產生的獨一無二的由歌迷協作共創的向Johnny Cash致敬之 “Ain’t No Grave” MV影片。

看過宣傳影片後,不僅可以將原始的 “Ain’t No Grave” 影片與共創後的致敬版本相比較,並欣賞一下Jonny Cash那種帶著傷痕卻狂放不羈的帥勁;此外,也會更清楚「群眾協作」的效果,因為數位所以能多元隨機地重組,其創作體與創作者也因被解構分身,所以集合體能呼應「群眾協作」的產出,也讓群眾中的個體成為創作者中的一員,參與了數位形式的集合創作。

而對本篇的最具參考價值的,就是這些透過數位參與完成「群眾協作」所建置的「使用者繪圖記錄」、「使用者畫作成品」、「圖像資料/資料庫」,在【The Jonny Cash Project】是共創完成群體個人化/客製化的向Johnny Cash致敬之 “Ain’t No Grave” MV影片。本篇介紹的6款Google Experiments 也是以「群眾協作」的圖像資料/庫為「內核心」所創意發展出的應用。

圖片來源:https://i.pinimg.com/originals/a7/d4/3d/a7d43d1cc10da6c37941339967a39c67.jpg

Aaron Koblin有不少此類數位參與共創的數位成品,於他在TED所介紹的【The Sheep Market】也是精彩的例子,這件數位專案是以大量商品化製程為議題,希望透過群眾共創在短時間完成大量「商品」,卻讓每件「商品」保有個別獨特性。雖然他在演講中指出【The Sheep Market】之所以選用「綿羊」為題材,是因為「綿羊」是第一種畜牧業產品、第一個被選擇性繁殖的物種、第一個被人工複製的的動物。但更有趣的是,他也提出【小王子Le Petit Prince】一書中畫羊與盒子的哲思~不在於物件形體而在於個人意義與想像。

此專案同樣透過網站上的數位繪圖器,讓使用者透過數位參與分享自己的創作,此創作主題為「棉羊」,而且是「面向左邊的棉羊」。每位「綿羊畫家」創作並分享個人版本的「面向左邊的棉羊」後,可獲得0.2美金,並收錄在【The Sheep Market】平台中。此專案在40天之內就累積收集10,000萬隻「綿羊」,且來自7,599獨立IP。有興趣者,也可以從【The Sheep Market】選購獨一無二的「綿羊」,以20隻為1套,1套20美金。從0.2美金的「工酬」,到20美金一套的「商品」,這是 Aaron Koblin透過數位參與要議論的商品化流程。

截圖自:http://www.thesheepmarket.com/

Aaron也將作品分享在網站上,很建議去了解體驗。因為除了【The Jonny Cash Project】以及【The Sheep Market】之外,導入數位協作、數位參與技術與概念的專案作品,還包括:【This Exquisite Forest】、【The Single Lane Superhighway】、【10,000 Cents】。

截圖自:http://www.aaronkoblin.com/

6款Google Experiments的技術與創意關聯

本篇介紹的【AutoDraw】、【Quick, Draw!】、【Sketch-RNN Demo】【Scribbling Speech】、【Draw to Art】、【Story Speaker】等6款Google Experiments先初步介紹如下:

  • AutoDraw:透過神經網絡猜測使用者繪製內容後,即在繪圖過程中,會根據所畫的造型線條去猜測並提供各式各樣的「圖示icon」在選項列上。而這樣的「繪製內容+神經網絡運算+圖像識別」的組合,會透過越多人參與(繪圖與選icon)得到持續的優化,也將更準確、更符需求。( Chrome experiment)(overview+launch experiment)(發表於2017.4)
使用示範結果。
  • Quick, Draw! :這是一個以機器學習所構建的遊戲,透過神經網絡試圖猜測使用者正在繪製什麼,類似於畫圖猜題的遊戲。進行網站開始後,或陸續收到應塗鴉內容的要求指令(例如:請畫出「曲棍球桿」),並且於20秒之內完成。神經網絡根據繪製筆畫進行辨識,可能判斷出或認不出與要求指令相符的圖像。判斷的依據當然也是與之前由使用者繪製並儲存的圖像資料庫為基礎,所進行的圖像辨識運算。( AI experiment)(overview+launch experiment)(發表於2017.5)
使用示範結果。
  • Sketch-RNN Demo:此款應用目前已更新為【Magic Sketchpad】,一樣是透過累積的電繪塗鴉資料庫,使用者經選定想畫的圖像(例:貓、馬、車….)後,只消畫上幾筆,就會由AI根據資料庫圖像,讓使用者與神經網路運算共同完成個人專屬畫作,下圖即使個人與AI合作的綿羊圖。( AI experiment)(overview+launch experiment)( 發表於2017.6)
使用示範結果。
  • Story Speaker:能將Google Doc網路文件編輯器上所寫的互動腳本(文字檔),透過Add-On加入Story Speaker應用程式,並語音播放與使用。這個已發布上架的研發成果必須搭配「Google Home智慧管家」 這款智慧語音服務裝置或「Google Assistant ~Allo語音助理」,具有互動功能可由閱聽者在許多段落自主選擇,而產生不同的劇情發展。而且這個互動腳本的編寫與應用,創作都不需要使用程式(Programing),即可在文件編輯上完成。( voice experiment)(overview+launch experiment)(2017.11)
截圖自:https://chrome.google.com/webstore/detail/story-speaker/ohfibfhhfbhknfdkipjdopbnegkbkjpj
  • Scribbling Speech: 使用者以語音描述想法、場景、或事物,此應用程式的機器學習和神經網絡功能就能即時在辨識語言後連結圖像,將話語轉換為動態視覺。(arts and culture experiment)(overview+launch experiment+get the code)(發表於2018.9)

Scribbling Speech】的運算分為輸入/輸出程序。先談輸入(input spoken words),當使用者講出語音內容後,透過Google Speech AI技術,透過Speech-to-Text 語音辨識為文字(transcription),然後再使用Google Natural Language API技術分析不同字詞的字意詞性。如下圖,There is a bird flying above the sea (有隻鳥飛越海面上方).這個句子會被電腦分析回送「bird」、「above」、「sea」。

圖片來源:Google Speech API和Google Natural Language API

此外,由於此應用也是與【Quick, Draw!】使用同樣的圖像資料庫,所以在輸出程序(output animated drawings)AI創作動態圖繪時,也使用這些塗鴉圖,並且是根據分析結果。像是There is a bird flying above the sea 被電腦分析回送「bird」、「above」、「sea」,就會從資料庫使用那些定義為「bird」、「above」、「sea」的塗鴉,並且產出與輸入之語音語意相符合的 AI動態圖繪。

圖片來源:http://xinyue.de/scribbling-speech.html
  • Draw to Art:透過塗鴉畫圖即可搜尋數位典藏資料的實驗,基本上的就是「圖繪+圖片辨識+AI搜尋+數位典藏資料庫」的概念。(arts and culture experiment)(overview only)(發表於2018.10)

其實,這技術與應用已經在博物館有使用的實例了。因為在Cleveland Museum of Arts的Studio Play展廳中,就有一個數位互動應用【 Line and Shape Interactive 】,訪客只要在Studio Play的螢幕上畫線條,就可以搜尋此應用程式中的442件數位館藏資料。使用方式就像是用畫圖去搜尋數位典藏資料庫。或許【 Line and Shape Interactive 】的數位典藏資料庫不如【Draw to Art】背後的Google Arts and Culture那樣龐大,但是使用方式與概念簡單極了,因為使用者也不需要先備知識,且沒有任何特定的目的與主題的限制。

觀眾只需要螢幕上畫線條,就可以從資料庫中,把數位典藏圖像呈現出來給觀眾看。就像是畫圖搜尋數位典藏資料。圖片來源:https://www.fastcompany.com/3005150/cleveland-museum-of-art-interactive-galleries
Line and Shape Interactive」會根據使用者隨畫的線條,即時呈現相符的藏品圖像。圖片截自: https://vimeo.com/60866007

在回想Google 所推出的AI 繪圖應用:AutoDraw(手繪找icon圖)與Quick Draw(繪圖答題遊戲)都是具有圖像分析與機器學習技術的繪圖應用,雖然神經運算所得繪圖辨識結果,是將之連結到不斷儲存累積的塗鴉資料庫,但Cleveland Museum of Arts的【 Line and Shape Interactive 】與Google 的【Draw to Art】都預示了此技術與應用可進一步整合在數位典藏資料庫的創意搜尋、數位參與上。

透過機器學習與辨識技術,任何手繪都能找到相對應的像素簡圖檢圖。圖片來源:http://twitiq.com/wp-content/uploads/2017/04/google-Autodraw.png

而事實上,本篇所分析6款Google Experiments也具有類似的相互關聯,因此透過下面的圖表,針對6款Google Experiments的技術與創意關聯進行梳理,也再示範如何掌握「內核心」、發散「外創意」,創造關鍵技術一源多用的效益與成本價值。

重要觀念如下:

  • 聚焦溯源的「直探核心」: 必須直探那個串連起各個群組的核心(bullseye)。就數位科技應用來說,此核心(bullseye)不一定是特定技術、軟體、硬體,也能是個觀念/創意;但這個「觀念/創意」必定是在技術、軟體、硬體支援方能達成。
  • 系統向外的「創意發散」:就如前述,數位科技具有「成本高」、「組合多」、「變化快」等內外部環境因素,為發揮最大效益,「一源多用」必須在各種支援的聯繫貫連下,在不同領域、功能、用途上進行「創意發散」。

關係分析圖如下:

作者自繪「共同元素與邏輯聯繫之分析圖」板書。

「共同元素與邏輯聯繫之分析圖」說明

本篇所分析6款Google Experiments:【AutoDraw】、【Quick, Draw!】、【Sketch-RNN Demo】、【Scribbling Speech】、【Draw to Art】、【Story Speaker】,在發佈時間上是落在2017~2018的區間,可粗略將【AutoDraw】、【Quick, Draw!】、【Sketch-RNN Demo】等歸類為「Draw應用群組」,而【Scribbling Speech】、【Draw to Art】、【Story Speaker】則是進一步應用像是Google Speech/Natural Language API的「複合應用群組」。

其創意關聯與發展流程就如下圖~「共同元素與邏輯聯繫之分析圖」。由左至右分別是「圖像資料庫」、「machine learning+neural network技術」、「draw應用群」、「複合應用群組」。

共同元素與邏輯聯繫之分析圖

位於「共同元素與邏輯聯繫之分析圖」左側的就是「圖像資料/資料庫」更是此篇所介紹6款Google Experiments 的「內核心」。

「圖像資料/資料庫」是由使用者以線上/載具電繪介面(e-drawing interface)所繪製的具有「物件名稱(上圖例為『郵輪』)」+「線繪圖(sketch)」+「繪圖筆序(drawing sequence)」等等資訊的圖像檔。「它」所代表的「使用者繪圖記錄」、「使用者畫作成品」、「圖像資料」,也是進行AI應用時,使用機器學習、神經運算的資料基礎,input資料分析、output結果產出都得仰賴這些資料,以及不斷的優化與修正。

共同元素與邏輯聯繫之分析圖左半局部

由於導入群眾協作的數位參與應用所期待的是多元開放式成果的「同源殊徑」(希望匯聚群眾多元創意的「分進合擊式想像」),或者是Aaron Koblin所追求的具有獨特性的量產商品(one of a kind product)。2017 年所發佈的【Sketch-RNN Demo】、【AutoDraw】、【Quick, Draw!】等3款,就技術創意關聯來說,彼此間是以【AutoDraw】(sketch)為核心原型,【Sketch-RNN Demo】與【Quick, Draw!】則再進一步以「塗繪+名稱 sketch+text」的組合,而有新的創意關聯應用。

共同元素與邏輯聯繫之分析圖中間局部

2018 年所發佈的【Scribbling Speech】、【Draw to Art】、【Story Speaker】等3款進一步應用Google Speech/Natural Language API、Google Digital Archive的「複合應用群組」,則是在2017年的「Draw應用群」的基礎上,複合更多的數位技術,達成更多的實務應用,無論是「TTS/STT+Draw」的複合版【Scribbling Speech】去創意地整合語音技術讓「圖像資料/資料庫」能夠即時產出對應的「動態圖繪」;或者是「Google Digital Archive+Draw」的複合版【Draw to Art】去創意地整合數位典藏資料庫搜尋技術,讓「圖像資料/資料庫」成為圖像搜尋資料庫能夠即時輸出對應的「數位典藏資料」。

共同元素與邏輯聯繫之分析圖右半局部

小結

有系統地透過「內核心」+「外創意」的企劃以執行「技術與創意有機組合」是絕對必要的步驟與職能,但這樣的創意發想與應用能力仍必須有建構在系統分析能力上。本篇從Google Experiments 近200多款應用程式中,特別揀選6款應用,試圖在「一源多用」的創意發想邏輯上,針對單項數位科技/創意的應用上進行分析,理解如何有系統地進行跨域(實際場域、專業領域)、延伸(技術模組化/加值型的應用)的創發,然後務實地進行「(內)核心」到「(外)創意」架構的「共同元素與邏輯聯繫之分析」。

本篇所選定的數位應用都是以「圖像資料/庫」為「內核心」,也就是由使用者以線上/載具電繪介面的具有「物件名稱(上圖例為『郵輪』)」+「線繪圖(sketch)」+「繪圖筆序(drawing sequence)」等等塗繪資料為主要資料,透過「數位參與+群眾協作」去創造更大規模、更多元的數位應用。

依此不論是「一源多用」的效益應用值得數位軟體與應用的公司/單位/研發人員去參考,透過「數位參與+群眾協作」去增益資料數量,並且匯聚群眾多元創意的「分進合擊式想像」以創造多元開放式成果的「同源殊徑」形式,也同樣值得參考。

--

--

數位轉譯職人誌三刀流
數位轉譯職人誌三刀流

Published in 數位轉譯職人誌三刀流

以數位轉譯為文法,以展示科技做論述,以專業職人角度,從學術、技術、研究、研發入手,分享博物館科技的觀看之道。此由施登騰教授主筆的專業分享專欄是以【數位轉譯系列】(學術、論述、實務)、【博物館科技系列】(論述與案例分析)、【Connoisseur系列】(Google Arts and Culture數位典藏策展與賞析實踐),兼以【數位科技系列】與【閒情偶寄系列】進行相關補充。目前總篇數約500篇左右。

施 登騰
施 登騰

Written by 施 登騰

一位大學副教授教員,同步寫數位展示科技與中國文物鑑定。長期研究與分享「Connoisseur系列」、「博物館科技系列」、「數位轉譯系列」、「數位科技系列」等領域之資訊與知識。所發表之相關專文,目前總數已逾500篇,見:【數位轉譯職人誌三刀流】:https://medium.com/artech-interpreter