【數位科技/數位轉譯系列:國內外AI生成技術工具的文化應用研析】@「文化部/科技計畫洞察與創新座談會」

再捨一版AI演講簡報 v3:「國內外AI生成技術工具的文化應用研析」@「文化部/科技計畫洞察與創新座談會」( #當天45分鐘飆完110多頁簡報)

此篇有分享網址,個人教學與研究用,有興趣可下載,能用即用,不見得要找我演講,但歡迎交流討論。(https://drive.google.com/.../1ohAeKP...

個人活動與教學之資料紀錄,文長勿入。

瘋狂但滿足的五月過了。

每週都有:一日北竹移動、透早到夜晚工時、基本教務與兼課總時數、許多校外專業服務等等壓力,固定的與臨加的,都順順通過「考驗」,且成效不錯。特別是5/31死線日,我甚至在一天處理完畢一篇定稿、一個國際研討會摘要提交、一篇館刊論文書審、一場演講邀請、一個Madmappper教學演示錄影,因之滿足。

不好多說,因為前天才看到摯友在動態不爽瘋狂五月,多說,就炫耀了。

此篇,是在六月一日休息後,開始整理的分享心得。要談的是5/31前一天5/30的精彩,那是於「文化部/科技計畫洞察與創新座談會」擔任諮詢專家且提出的簡報內容。當天出席的還有宇萌科技的白璧珍總經理,已許久未見,她隔天還有台大EMBA的口試,昨天已獲悉高分通過,很恭喜。

「文化部/科技計畫洞察與創新座談會」當天,我是被安排在第二場的講者,前面的講者讓我認為仍過於科技思維的計畫撰寫引導,所以我在演講開場,也是在分享簡報下載QRCode時,算是脫稿說了些我逆向從文化觀點去提出的文化科技與或科技文化的平衡。(對了,簡報下載走此:https://drive.google.com/.../1ohAeKP...

我要揭開的其實文化與科技的合作實態,從自己的經驗去理解與提醒。沒打算給太多的遐想。畢竟科技人與文化人思維不同,畢竟文化與科技常在自己本位期待對方靠近,所以我期許的是文化人的科技思維,對焦的是文化的科技應用,建構的是文化的技術論述,提醒的是沒有現成的文化科技。於是,我提起兩個過去引用過的科技哲學概念,「薛丁格的貓」(Schrodinger’s cat)以及「奶油貓悖論」(cat toast paradox),果醬吐司與貓的悖論。「薛丁格的貓」這個思想實驗描述了貓在封閉的盒子中,既處於生的狀態,又處於死的狀態,直到觀察者打開盒子才確定其狀態。啟示著觀察者介入如何影響現實,在文化與科技的合作中,已擔任觀察者太久了,想都是問題,做才有答案,唯有介入和選擇方能決定了科技應用在文化領域中的具體形態和效果。奶油貓悖論則是個幽默的科技幻想,它假設塗奶油果醬的吐司掉落時,總是塗面朝下落地,恰好貓掉落後也總是四腳著地。那麼將吐司塗面朝上且固定在貓背上,是否會出現不斷翻轉的永動機?這個悖論其實能啟發對矛盾和整合的思考,畢竟在文化與科技的融合中,常常面臨矛盾組合與需求目標的對峙,卻有期待如「永動機」的美好想像。導入現代科技手段,需要的不僅是創新的思維和靈活的策略,還要有務實的規劃與步調。

所以,我也提出過去面對5G的熱潮,我建議的是尋找與啟動4G ready for 5G的技術應用,而不是一味的追求新科技;同樣的,面對AI的創新賦能與功能擴張,也能從過往面對巨量分析、機器學習、電腦運算等等經驗,讓過往就熟悉又陌生的AI不致以新科技救世主之姿被誤解與過度期待。

此外,我也在討論AI技術在文化知識領域的應用前,從去年的經驗提及「最不解的是,既是新科技,其發展不是該像『 #科技接受模式』(Technology Acceptance Model, TAM),怎麼沾上教育使命後卻像是Kubler-Ross 的『 #五個悲傷階段』(Five Stages of Grief)。」原因就是目睹對於AI的過於憂心與過度期待,我心裡想到是汽水廣告詞「你(他媽的)就『喝喝』看嘛!」,何況從各種「XX元年」的口號,以及NFT、Metaverse、Generative AI的接續而至的熱潮,有太多評論新科技之即時(且即期)的預測、省思與觀察。休管這些想法是為卡在想推倒的高牆上,或仍是慷慨激昂站在高牆前。每人要忠於自己的使用經驗與教學測試,那才就是最誠實的原則了,至於什麼數位科技能予人類的光明未來、增進福祉、末世威脅、衝擊誘惑等等,百人千口,讀讀就算了。何況從我觀察到的台灣教育界和文化界對AI技術的反應來看,更像是「五個悲傷階段」(Five Stages of Grief)。狀況就是:

對於AI生成技術的應用會先陷入「否認/隔離(Denial & Isolation)階段」,認為這種技術會對教育產生負面影響,因此選擇否認其存在和影響。隨著AI技術在文化知識領域的應用越來越廣泛,有些人甚會進入「憤怒(Anger)階段」,擔心這些技術會對人類角色和地位造成威脅,對此感到憤怒。隨後,部分人會進入「討價還價(Bargaining)階段」,試圖在AI技術與傳統文化知識之間找到平衡,期待充分利用AI的優點,同時保留文化知識工作的價值。當意識到AI技術在教育領域的影響和改變是無法避免時,有些人可能會進入「沮喪(Depression)階段」,對未來文化知識願景的變化感到無助。最終,會被迫進入「接受(Acceptance)階段」,方去了解AI技術在文化知識領域的應用潛力,並尋求方法來適應與利用這項技術。這過程所顯示出的,是在面對新興技術時,教育界和文化界反應的情感和心理之變化,確實不僅僅是顆繼接受問題,而是個逐漸適應和接受的過程。因此,要理解這種對抗與想法,並提供相應的調整和因應,方是推動AI技術在文化知識領域應用的重要步驟。

此新版的AI簡報,我也特別補上了OpenAI的Spring Update Event與Google I/O Developer Conference的新訊息。

我對GPT-4o的新功能介紹,是特別聚焦「AI有了眼睛」後所帶來的互動與對話等多種可能性,這些功能也提示了拓展AI技術在文化領域的應用可能性。

✅ 首先,GPT-4o的「Seeing and hosting」功能,展示了AI如何透過攝像頭捕捉和分析環境資訊,進行人機間的自然互動。這項功能可以應用於博物館的導覽系統中,透過識別展品並提供詳細的講解,提升參觀者的體驗。甚或由AI協助識別和記錄文物的狀況,提供科學的保護資料建置與決策建議。

✅而「Seeing and translating」功能展示了AI的即時翻譯能力,這對於多語言文化交流和推廣很值得期待。文化機構確實值得利用這功能,為不同語言的參觀者提供即時的語音和文本翻譯服務。

✅至於「BeMyEyes seeing」功能則展示了AI在幫助視障人士方面的應用,這數位近用的賦能設計可以讓博物館協助視障人士在友善平權設計下參與文化活動,感受文化魅力。因為AI眼睛可以描述周圍的環境和物品,幫助理解和欣賞展品,這將提升文化活動的包容性和可及性。

✅還有「Chatgpts chatting」功能則是AI在日常交流中的應用。透過與AI的對話,就可藉以提供獲得各類訊息和建議的機會,適用於教育和宣傳的應用。文化機構可利用這功能,提供全天候跨時地的問答服務(類似過去期待的ChatBot功能,但更為全知與自然)。

此新版的AI簡報,另一個新訊更新也聚焦在Google I/O 2024 Developer Conference的AI新功能。

就在OpenAI發表了一系列突破性的功能後,隔兩天,Google的AI則更是鎖定旗下數位產品的AI服務整合。我對此次更新中,對於「Ask Photos」功能印象深刻。這項功能讓使用者透過簡單的語音指令,詢問和獲取照片庫中相關的訊息和建議,雖基本上是提供照片管理和搜索的便利性,但背後是龐大數據分析和機器學習等運算能力的通用服務。所以,就我的看法就是過去超貴的vision AI,被整合到能提供更強大「生成式搜尋generative searching」的AI overviews數位服務,因此很值得其對於資料搜尋之科技賦能的期待 。有看到關鍵詞?「資料」。是的,我瞄準的,就是未來在數位典藏資料的技術與應用的影響。

因此,我特別在簡報中提及此「ask photos」功能讓我聯想到之前大型機構所進行的龐大數據分析和機器學習應用。例如,美國現代藝術博物館(MoMA)與Google的合作,經過多年研發,分析了多達三萬筆展覽照片中的65,000幅作品,成功地透過機器學習辨識出其中27,000幅,並提供自1929年以來歷年展覽照片與數位典藏資料的鏈結。這項研究不僅展示了機器學習在文化資料保護中的應用潛力,還為文化機構如何利用技術進行數位化轉型提供了絕佳的範例。

此外,更值得提及的案例是MIT認知科學家Deb Roy在2011年的TED Talk中發表的研究。Deb Roy為了了解他襁褓中的兒子如何學習語言,在家裡裝設了攝影機,記錄了兒子生活中的每一個時刻,且累積了九萬個小時的家庭影片,也累積針對的分析資料。於是他透過認知分析去運用數位運算,遂能從這些大量的影片資料中,擷取到他兒子從「gaaaa」這個嘎嘎學語聲如何逐漸變成明確得「water」發音。這不僅揭示了語言學習的過程,也展示了大數據分析在研究人類行為方面的潛力。(很推薦聆聽這段從gaga到water的學語紀錄 https://www.media.mit.edu/.../audio/water-hp-2_composite.wav

這就是我當天要特別提及的,過往難以企及,耗資費時且有高技術門檻的技術,現在已通用型數位賦能科技等待各種創意與實務需求。

因之,我接著去提出我對於強弱AI的定義與觀念。

我的概念是,國家型與機構型的大型計畫雖然也應該關注弱AI/窄AI(根據幻燈片中的定義)的實用性與通用性,讓更為成熟的商業數位服務可以導入運用,但也應該善用計畫規模去開發更具強度使更能發揮AI運算能量的業務運用與任務遂行得以成功。真的很怕文化人就以為AI就是AIGC的圖文生成,所以特別提出強弱AI的說明。這個討論其實就正好在接受中央大學王俐容教授之國科會研究計畫的專家訪談時,我特別有跟她討論交流過。

我認為在當前的AI發展中,強AI與弱AI(或窄AI)是兩個重要的概念。強AI指的是具備類似於人類智慧的AI系統,能夠理解、學習、適應和執行廣泛的任務,並能夠在未經專門設計的情況下應對新問題。強AI具有高度的靈活性和自我改進能力,能夠進行自主思考、推理和解決複雜問題。然而,這種AI目前仍處於理論和初步研究階段,距離實際應用還有很長的路要走。相較之下,弱AI是專門針對特定任務或問題設計的AI系統,僅能在有限範圍內執行特定功能,無法像人類一樣處理多樣化的任務。弱AI通常基於特定的算法和數據集,具備有限的自主性和適應性,主要用於自動化重複性工作和簡單的決策支持。這類AI在現實生活中已經被廣泛應用,如語音助手、自動駕駛、圖像識別等。因此,我就總共用了5張幻燈片,分別提出「強弱AI的定義與觀念」、「強弱AI的應用範例」、「文化行政工作中的AI輔助功能的象限分析」、「文化行政工作中AI輔助功能的應用範圍」、與「強弱AI應用範圍的具體分析」。

我認為對於AI技術的應用中,國家型與機構型的大型計畫需要同時關注弱AI/窄AI的實用性與通用性,這些技術已經在商業數位服務中展現出成熟的應用潛力,可以有效提升日常工作的效率和精度。然而,針對更具挑戰性和創新性的需求,大型計畫應當著眼於強AI的開發和應用,充分利用其在高複雜度任務中的潛力,以推動業務運營和任務執行的質量提升。強弱AI各有其適用範圍和發展方向,文化機構應根據實際需求和資源情況,合理選擇和應用這些技術,實現文化創新與科技進步的協同發展。透過有效的策略和資源分配,AI技術將能在文化行政和管理中發揮更大的作用。

如何做?觀念為何?我提出:「從數位典藏到數位製造的積極應用」,核心技術就是以內容為體用的「數位轉譯」。

整合內容與科技專業的「數位轉譯」在當今的文化科技應用中,扮演著至關重要的角色。這不僅僅是一個技術問題,更是內容與技術整合的關鍵。我所提出的數位典藏和數位製造,也是兩個相輔相成的領域,它們共同推動了文化內容的保存、創新和傳播。只不過,我視「數位製造」為更積極的作法。於是,我在簡報內容與演講分享時,不僅探討如何將數位典藏的成果積極應用於數位製造,也提出必須解構科技(而非一味盲從新興科技),以實現一元多用的技術應用策略。

我在此分享中,是這樣定義「數位典藏的意義與應用」的:數位典藏(Digital Archive)是種透過數位技術對文化資產進行保存和管理的方法。這些文化資產包括文字、圖像、聲音和影片等形式的數據,這些數據透過數位化處理後被保存在資料庫中,並可透過網絡去進行收存取用。數位典藏的主要目的是保護文化資產,防止其因時間和自然災害而損毀,同時也為研究、教育和大眾提供了方便的可及性途徑。相對的,我也定義了「數位製造的概念與發展」,那就是數位製造(Digital Fabrication)指利用數位技術來進行物理產品與數位內容的設計和製造。數位製造的優勢與功能在於基於數位典藏資源的「取用」之高效性、靈活性和精確性,能夠更積極的面對數位典藏加值應用在在藝術創作、文物修復、教育和工業設計等領域的應用前景。

至於內容與技術融合的「數位轉譯」,我則在「數位典藏」與「數位製造」的積極用途上,將「數位轉譯(Digital Interpretation)」詮釋為是一種將數位典藏的內容轉化為數位製造產品的過程。這過程需要深厚的內容基礎和合適的技術支持(深厚的內容更是文化機構的優勢)。透過數位轉譯可將數位典藏中的文化資產轉化為創意與可及的展品、教育資源和互動體驗,或實體或數位,從而實現內容價值的最大化。數位轉譯的關鍵價值就在於將內容和技術緊密結合。一方面,依靠數位典藏提供的豐富內容資源,而這些資源正是數位轉譯的基礎。另一方面,需要運用數位製造技術,將這些內容資源轉化為具體的產品和服務。

以上,是當天我以「國內外AI生成技術工具的文化應用研析」分享給文化部科技計畫夥伴的重點。有興趣可下載!

--

--

施 登騰
數位轉譯職人誌三刀流

一位大學副教授教員,同步寫數位展示科技與中國文物鑑定。長期研究與分享「Connoisseur系列」、「博物館科技系列」、「數位轉譯系列」、「數位科技系列」等領域之資訊與知識。所發表之相關專文,目前總數已逾500篇,見:【數位轉譯職人誌三刀流】:https://medium.com/artech-interpreter