ChatGPT 4o-等待軀體的靈魂

OpenAI 在短短幾天的通知後,5/13 在i/o的前一天直播了他們的春季發表會,正式向世人公開更快更便宜的AI模型「ChatGPT 4o 」

ChatGPT4o,並非全新的智能模型GPT5 而是更新既有模型,讓其體驗更加順暢。

其中,最驚喜的便是讓人看到宛如「雲端情人(Her)」真實上演,使用者得以透過語音與其對話,並發佈指令。

讓人不得不開始對於未來有無限的想像,然而,我卻也開始思考為何Open AI是往此方向更新?以及為何有種對Google不懷好意之感?

以下是我的想像與觀點。

瞄準Google的惡意-試圖取代Google 創造新型態的網路使用行為

  • 2023年3月14日,OpenAI 在 Google 推出 Google Workspace 生成式 AI 功能同一天發布了 GPT-4。
  • 2024年2月15日,OpenAI 在 Google 啟動 Gemini 1.5 同一天公開了 Sora展示(雖然Sota)
  • 週一在 Google I/O 的前一天,OpenAI 宣布了其「春季更新」,包括 GPT-4o 模型,在 Google I/O 的前一天。

昨天Google 同步正式發表推出輕量模型Gemini 1.5 Flash,並公布Astra計畫的最新進展,讓AI助理即時分析手機拍攝的畫面,提供語音回答,展現AI助理未來的可能性。但完全被GPT4o的討論聲量淹沒。

反映出OpenAI試圖挑戰搜尋龍頭壟斷的地位,試著改變多數人進到網路虛擬世界的第一站是從「搜尋」開始的習慣。OpenAI有意的想要讓上網的第一站是從與AI對話開始。

靈魂的出現-GPT-4o

「GPT-4o(”o”代表”Omni)是朝向更自然的人機互動邁進的一步 — — 它能接受文本、音檔和圖像的任意組合做為輸入,並生成文本、音檔和圖像的任意組合作為輸出。它可以在短至232毫秒內對音頻輸入做出回應,平均只需要320毫秒,這與人類在對話中的反應時間相近。在英語和程式碼方面,其性能匹敵GPT-4 Turbo,而對於非英語文字有顯著改善,在API上同時也更快速且便宜50%。GPT-4o特別擅長於視覺和聽覺理解,相比現存模型有所提升。」 — Open AI blog post about GPT4o

Open AI 並沒有選擇公佈更智慧、更具突破性新的智慧模型GPT5,而是針對GPT4 優化整體的互動體驗,讓AI不僅僅是文本上的對話,而更像是與真人互動的展現。

當然發布會的當下可以看到,要完全達到理想的體驗,在現在的科技環境或運算表現下仍屬於嚴苛的狀態。就連展示都需要以有線的形式確保網路穩定度。

你難以想像,在短短十年不到時間「雲端情人」竟然已經離我們那麼近?!(這對於一個喜歡獨處探索世界的i人而言是多麼快樂的事XD)。

過去,你透過文字與chatGPT對話,在沒有順暢的對話以前,你終究會有一種使用工具感。(像使用google搜尋一樣)而當你開始是用對談的方式與AI機器人對話,在對話的過程當中找到答案,那是近乎直覺的互動。

而OpenAI辨識很認真的在降低使用者使用自家產品的工具感,提升使用的直覺。這也意味著,OpenAI正走向大眾消費市場。

同時也表示OpenAI的靈魂,正需要找尋可以附著的軀體迎向大眾,而這副軀體,我認為將是Apple。

承接靈魂的軀體:Apple

「據熟悉此事的人士透露,蘋果公司已接近與OpenAI達成一項協議,將該初創公司的技術用於iPhone上,這是將人工智能功能引入其設備的更廣泛推動的一部分。這些人士表示,雙方一直在敲定使用ChatGPT功能於蘋果iOS 18中的協議條款,即下一代iPhone操作系統。他們要求匿名,因為此情況屬於私密。蘋果還與Alphabet Inc. 的Google就授權該公司的Gemini聊天機器人進行了談判。這些討論尚未達成任何協議,但仍在持續中。」 彭博社

當股票市場盯著Apple的iPhone 出貨量停滯不前,在七騎士中與特斯拉共陪末座。擁有最強大硬體實力、用戶以及充沛現金的Apple,是我認為接下來最有機會接棒AI果實的科技巨擘。

無論Apple與誰的機器人進行合作,都將會帶來大量的算力基礎建設的負荷,之前多數媒體多看好Google,是因其基礎建設相當豐沛,然而OpenAI與微軟的基礎建設實力也不容小覷。

此外,前陣子google正式將Pixel事業體拉升在Android系統之上的層次,來區分手機而非使其廣泛可用於Android生態系統,這是否意味著Google正在追求突破軟體公司定位,以挑戰iPhone 的雄心壯志?如果內部意見一致, 這策略將使Google不會把Gemini交給Apple。

那勢必推升Apple與OpenAI合作的可能性。

要在消費市場取勝,在很大程度上比2B更需要在意體驗的流暢度。這種方法似乎與蘋果公司合作相符。儘管GPT-4o看起來運行得很快,仍然存在拿出手機、解鎖、啟動應用程序並進入語音模式的麻煩;但如果該功能像Siri一樣好用呢?

OpenAI突然劇增推理能力完全是模型改良的結果嗎?或者蘋果支付了大筆款項以確保ChatGPT性能比以往任何時候都要好,在某種程度上實際上成為Apple需求中Google Gemini 的一個可行替代品?

這些都是猜測,但我想該建倉Apple的股票了!

--

--