An Interview with Scale AI CEO Alex Wang About the Data Pillar for AI

Andy
Andy’s Project 一百種對生活的觀察
30 min readJun 22, 2024

背景

Alex Wang,歡迎來到Stratechery。

AW: 嘿,Ben。很高興能在這裡。我是節目的忠實粉絲。

我們一會兒會談到Scale AI,但首先,我總喜歡通過瞭解創始人是如何走到現在這一步的故事開始這些對話。對我來說,這是一個特別棘手的討論,因為你的故事始於1997年,也就是說那時你出生了而我已經是高中三年級生了。但讓我們從那裡開始吧,我覺得實際上挺有趣的,你出生在哪裡?跟我講講你的人生故事?

AW: 是啊, 我出生於新墨西哥州洛斯阿拉莫斯。去年奧本海默電影上映後, 我想現在更多人知道洛斯阿拉莫斯作為曼哈頓計劃原址之地. 那裡仍然有一家國家實驗室, 也正因如此我的父母都在那工作所以才會有我的誕生 — 我相信該地區擁有全國最高博士學位密度. 大致來說, 那裡每個人要麼是科學家或者他們家庭中至少有一名科學家在國家實驗室工作。

你父母是否是在實驗室相識或共同前往?

AW: 不, 他們倆都拿著博士學位時認識並且後來又共同前往那裡。他們都是物理學者,在洛斯阿拉摩斯物理學乃主導領域;所以我的父母非常受尊重。成長過程中首先記得從幼兒園開始父母就開始教授給予物理知識;回憶起來他們會交授基礎力學接著穿插電磁概念 — — 絕對算不上普通童年經歷。

您認為自己對數學和科學真正產生興越感歸功於您父母麼?

AW:確實如此,並且這份興趣轉化為參與競賽方面 — — 數學、編碼、物理競賽等,並從州級別做起進而發展至國家級別參加比賽建制選拔過程中取得唯一榮耀意味著雖未入選任何隊伍但所有三個領域(數學、計算機科技及物理)均進入最終選拔環節前夕。

最終選拔環節指什麼?負責訓練隊伍還說某種形式最後篩選?

AW:即最後篩選環節,在物理方面大約為12強,在計算機科技方面亦大致如此。

明白了 所以可以稱您為“奧林匹克全能型”選手

AW:沒錯,“樣樣通、樣樣松”。

這裡使用“松”字需謹慎應用 您確實達到了最後籌備名單標準 儘管如此

AW:當時進行這些比賽建制期間肯定發現無其他人像自己廣泛涉及未能更好突出任何一個區域

然後當處於高中期間覺得無聊提早離開轉戰硅谷工作 這源於編碼競賽建制群體內部不少優秀編碼員服務於灣區少量技術公司其中包含Quora 因此17歲移居硅谷 在Quora擔任工程師崗位專注速度優化整整一年 初始鍛造工程及技術產業經驗

針對實際產品進行工程設計與奧林匹克計算機科技相關內容相比存在何種差異?

AW:關鍵見解即奧林匹克試題告知具體任務 身處產品工程則可自由選擇想要處理問題 心態迅速轉變意訴問題選擇決定成效影響十倍以上 成為總體影響力核心動力來源 著迷該思路:“必須普遍善於問題選擇 這基本決定最終權益大小”

究其原因使您深刻領會該點?考慮到隻身初試創業界1年時間 年紀僅17 實屬深刻啓示 是否特殊事件引發?

AW: Quora內部發佈所有A/B測試結果 特色之處可通過郵件列表查看每項A/B測試運行情況及效果大小 Quora內部A/B測試結構完善 觀測各類實驗數據 顯然 投入較大挑戰性項目例如推薦系統更新或信息流排列算法調整 屬技術難題 最簡單例子改變按鈕顏色 查看各類實驗效果數據 發現簡易操作例如調整按鈕顏色或風格微調帶來重大影響

Google因頻繁A/B測試多種藍色 shades 受批評!

AW:實際上,相對於我正在努力提升速度和優化來說,改變一個按鈕的顏色所產生的影響竟然與使網站加速20%相似,而且讓網站加速20%要困難得多。你只需看看這些結果,就會想,“哦,嗯。實際上……”,有非常容易的方法可以產生巨大影響,也有非常困難的方法可以達到巨大影響。

The Data Pillar

你離開Quora然後去了麻省理工學院,這是事件的正確順序嗎?

AW: 是的,我離開Quora去了麻省理工學院。我認為在我回到麻省理工學院之前的那段時間 — — 這很有趣,由一群主要是有效利他主義者組成的團隊舉辦的夏令營叫做Spark,但其中一個組織此次夏令營的人是Paul Christiano,他是RLHF[來自人類反饋的增強學習] 的發明者,現在實際上在商務部工作,在美國AI安全研究所。但基本上,這是一群非常聰明的人在運行夏令營,而且完全地,他們都專注於深度學習,在2014年左右時代基本上就是深度學習現代時期的開始, 正好在我們剛讓卷積神經網絡起作用之後, 所以我們剛開始讓這些神經網絡進行圖像識別。

每個我認為比我更聰明、年紀更大、經驗更豐富的人都說深度學習顯然是最重要需要從事的領域之一, 即使在那時, 他們已經開始對AI安全進行辯論。他們說:“哦, 如果這個深度學習事情繼續下去, 那麼你將會擁有AGI(通用人工智能), 我們擁有AGI後, 安全性將成為一個非常重要問題”, 顯然這個核心論點最終導致OpenAI被創立。

所以所有這些人都對深度學習感興趣,並且我想,“哦,關於它我真不怎麼懂”,但幸運地返回大學可以讓我專門學習它。 我花了一年時間密集地學習深度學習除了各種東西外,在我的宿舍里訓練了很多神經網絡,並且這導致了一個核心洞見 — — 即推動Scale發展所需思考: 這些模型由三件事組成:計算力、算法和數據;Nvidia和其他公司等很多聰明人正在處理計算力方面;也有很多聰明人處理算法方面;但處理數據方面則少得多。 然後過去選擇問題時意義重大 — — 選擇何種問題至關重要,並不總需要選最性感、技術含量最高の事物。因此我意識到,“嘿 ,需要一個專注於數據の公司”。

啊 ,記得國際奧林匹克競賽中並沒有關於數據標注項目 。可能錯過那個了。

AW: 我認為那還屬未來! 數據標注變得相當複雜。

Q:當您看到將會出現第三支柱而沒任何參與者時 ,您是否具備任何特定洞見如何操作 ,或只不過覺得“存在待解決問題空間 ,我們將來找出解決方法”?

AW: 是 。可能最形塑性質直接體驗就是當時使用Google Cloud中單GPU 訓練著一個神經網絡使用TensorFlow , 它根據某個人臉部表情檢測情感 ; 基本上全部做法就取ImageNet教程代碼 — — 實際上針對截然不同圖片識別演算法教程代碼 — — 然後換掉數據集按下“Enter”。12小時後 , 我獲得打敗其它方法解決從圖片識別情感問題の祖網絡 。

Q:所以重點其實是,數據才是最重要的。

AW:對。從一個問題到另一個問題,唯一變化的就是數據,或許這麼說更恰當,作為一名程序員,你會意識到,“哦,原來真正做所有事情的其實是數據,而我對問題的見解並不真正重要,它只不過全部嵌入在模型最終被訓練時使用的數據集中”。

所以我認為,A)我知道數據非常重要。我記得這種領悟,在模型達到某種性能後停止了下來, 我想,“好吧, 我必須使這個模型更好”,然後我就想,“好吧, 我該如何改善這個數據集呢?”,接著出現了第二次領悟, 那就是這是一個極度痛苦的過程。你打開所有圖片然後去查看,“好吧, 所有圖片的標籤是否正確?”,然後你會想,“好吧, 我該如何找新圖片加入呢?”,再接著,“我怎麼給那些新圖片貼上標籤?”等等核心操作 — — 換言之更新、改變或提升數據集都非常令人頭疼。

因此我在2016年創辦了公司,在那個時代廣泛認識到平台特別是讓複雜難用變得簡單易行對開發者來說很有價值這樣一個觀念成為良好商業實踐。AWS已經明確地成功證明自己作為企業界有史以來最成功的企業,並且Stripe也同樣被公認為極度成功;因此作為這些公司學生派出身者意識到:“嘿我們應該把現今存在著混亂和複雜轉換成美觀開發者體驗UX如果我們能夠完成這點那麼將會擁有巨大價值。”

Q:這裡面包含很多內容需要詳細分析。從更廣泛哲學角度來說 你認為關於數據見解還持續有效麼? 因此並不僅僅三大支柱計算、算法和數據 而實際上數據才是最重要 並且像您之前看到 是否現在情況更加複雜 或甚至比之前還要顯著?

AW:對 我認為越來越顯示出這種情況 正確無誤 最近參加了一個與其他AI首席執行官們聚會 在其中一個晚餐談話中 “計算力 數據 哪個先耗盡?” 成為共識答案圍繞房間 是數據 而過去幾個月 數據牆已經成為相當普遍爭論主題 “我們是否正在LLM開發中撞擊數據牆 或我們只是基本上達到了數據限制?” 即使採取最樂觀假設 讓我們假定真正地訓練了所有人類生成文本(沒有理智人士會這麼做 因他們會過濾掉所有廢話)即便如此 到2027年 2028年我們也將耗盡資源

總體而言 就保持規模增長所需數額龐大數量級別 整體清楏地撞擊某些意義上顯著牆壁 如果考慮 迄今大量模型性能提升 或稱之大幅進步 模型我的私人理由 認多數實質歸結於數據 和創新利用方式及AI堆棧中基於數據密集部分創新。

Building ScaleAI

Q: 嗯,讓我們來探討那些數據是如何產生的。當你開始Scale AI時,你會發現數據有著巨大的影響力,在這個領域里沒有人,存在著解決混亂問題的機會,這些問題既複雜又昂貴,而且你提到了AWS和Stripe的比喻 — — 當初你是怎麼認為數據標注會起作用的?隨著時間的推移,實際情況與你最初的假設有什麼不同?

AW: 是的,我認為其核心,基本概念,數據標注,如果你將它簡化,就像是你有一堆數據並希望將這些數據與人類的認知融合。所以你想要真正的人類認知輸出與那些數據結合起來,基本上作為模型或其他AI系統學習的標籤。

這種輸出可以簡單到只是說出圖片中有什麼,或者類似的事情。

AW:對,完全正確。一些最基本的數據集就像是關於圖片內容的描述、解釋圖片或回答有關圖片的問題,然後很明顯隨著時間推移它變得更加複雜了,我們會深入討論所有這些,但如果你真的思考這個核心過程,我當初想法是如果你以一種天真的方式去做,比如你只是實際上擁有一些圖片,把那些展示給人看,然後讓他們手動標記每一張圖片, 你會有某種程度上的效率。如果你能夠建立出色工具、如果你能夠實際優化並找到最適合此類工作的人員、如果你能夠優化自動化和流程, 便能利用專門算法自動完成大量工作流程。

如果您能夠處理所有這些不同部分, 那麼您可以在生產這些數據集方面取得巨大效率提升或另一方面質量大幅提高, 我總是把它想象成帕累托曲線, 成本與質量作為帕累托曲線的兩個軸心, 而整場遊戲就在於給定固定預算或特定金錢下, 你究竟能達到多高品質?

BT:所以當您開始時, 您是否假設 — — 我的意思是您來自背景之前已經是位工程師 — — 您是否認為主要會是一個重大技術問題呢?還是從開始就清楚這也將會成為一個重大人力資源問題?

AW:這很有趣。我記得當初創建app初始版本時其實認為,“哦耶,在我構建了app之後這實際上會變成一個非常簡單地問題因為現在我只需要讓人們使用這個應用程序然後所有問題都將迎刃而解”,這可能是最天真無知地假設了因為現實情況中關於平台上人類行為差異性之廣泛及管理操作層面之複雜性確實非常挑戰性。

所以按照您說地點我們很快意識到這實際上主要還涉及著龐大運營問題,並且比如說70%戰役並不全都像我剛給您描述過那樣性感包括構建自動化工具和創建最佳工具再增加更多處理過程中自動化等等;70%戰役其實就僅僅關乎於“如何確保所有參與者均接受良好培訓?如何確保他們表現優秀?怎樣確保他們被正確引導去完成任務?怎樣有效溝通?” 這幾個方面很快成了主要挑戰。

BT: 我很驚訝70%竟然這麼低。嗯,我的意思是,首先,我們在談論多少人?有一個漂亮的大圓數字可以涵蓋目前幫助Scale AI達成其目標的人數嗎?

AW:我認為大致上,在很多我們所謂的專家工作上,這實際上是改善這些LLM的工作趨向所在,可能大約有十萬人左右。

但也有很多非專家的工作,對吧?

AW:是的。所以談論歷史是值得的。我們最初是在2016年創立了公司,這其中有一部分直接關係到AI作為一個行業的核心,因為AI本質上是一項通用技術,因此我見證了許多對技術不同形式的興奮浪潮。

但當我們在2016年開始時,或多或少,所有的資金都投向了自動駕駛汽車和自動駕駛技術,而AI中其他方面幾乎沒有得到太好的資助。自動駕駛得到了天文數字般的資金支持,數十億美元之巨,並且老實說這和現代生成式AI公司沒什麼兩樣,你對於自動駕駛所關心的問題大多是圖像識別或物件偵測以及這些汽車的路徑規劃。你只需要讓這些汽車能極其精准地識別周遭事物即可,因此這裡面涉及到如何確保你真正理解所有感測器數據 — — 包括雷達掃描、圖像、影片和雷達掃描等,在眾多感測器數據中辨認出所有人群、行人、單車手、柱子、建築指示牌等等。

所以我們可以相當有效地利用全世界各地人員來完成這項工作,並且它不需要太多特殊知識或專門技能。然後我會說我們首次涉足需要特殊知識工作 — —

BT: 我很抱歉,對此感到好奇。這是否是一個階段,在這個階段中,Scale AI或你的各個子公司幾乎更像是一個市場,在這裡你與需要這些數據的公司建立了聯繫,然後你可能在運營要求方面咬下了比自己能嚼的還要多的東西,發現為什麼這是一個稀缺領域?沒有人想要創辦一家公司,基於在全世界找承包商來說“那是停車標誌”,“那是行人”,或者可能是其他什麼。

AW:我認為實際上在所有階段中,我們將會討論到,Scale 是一個偽市場。我們不完全是一個完整的市場,因為很明顯這不像人們只是在平台上進行交易,我們確實促成了所有交易,但它在某種意義上是一個偽市場,因為我們有模型開發者或AI開發者位於系統的一方,然後我們基本上將他們的數據需求轉化為由一群貢獻者完成的工作和任務,而這些貢獻者需要做什麼或他們看起來需要怎樣已隨時間改變。但其核心是確保我們有足夠大且範圍足夠廣泛的合格貢獻者來確保需要完成的工作或需要建立的那種數據能夠為模型開發者建立。

BT: 您是否剛剛必須逐步意識到,“哦,我們必須做這件事”,“我們必須增加這個”,那裡的平衡在哪裡?您談到了效率和實際上讓流程運作起來,但是是否有大量的運營建設需要發生?成為一家工程公司或技術公司與成為一家運營公司之間的平衡,在某種程度上像是大規模外包,是怎樣的呢?

AW:是的,我會說對於這樣的任何業務來說,所謂的零階段就是你要運籌帷幄地解決每一個問題,我認為如果你停留在這個階段,用運籌帷幄的方式解決所有事情,那麼我不認為你能走得很遠,但你確實可以開始做些什麼並且可以獲得一些初步合約。

BT:這實際上是一個相當顯著的護城河。在這種程度上,它只是一個非常困難和混亂的問題,如果你真正解決了那些困難和混亂的問題,沒有人會想要費力去重新發明飛輪。

AW: 哦,絕對是。我記得在我們早期的投資說明書中有一張幻燈片,我們實際上只是放了一張系統設計圖表,展示了所有需要解決的小問題以及所有需要協同工作的小系統,無論它們是運營還是軟件或者其他各種系統。從整個品質控制機制如何運作到整個招聘機器如何運作,再到整個績效管理系統如何運作,以及整個培訓系統如何過程都包含其中,這可能是你能想像到的最混亂的圖表了,而這其實就是重點。該幻燈片的重點在於展示 — —

(笑)這就是我們護城河的畫面。

AW: 是啊,完全正確。且這整套系統非常複雜以至於當然啦, 其他人可以嘗試去做這件事情, 但不管怎樣他們都必須要解決這一大堆凌亂問題集合,並且無法繞過問題本身固有的混亂性。

The AI War (with China)

市場的需求如何轉變了呢?你之前提到過這點,而我打斷了你。起初是針對自駕車的圖像,現在則全都關於這些基於文本的模型。從圖像轉向文本涉及哪些內容?

AW:我們在這裡有一個有趣的中間步驟,廣義上講,隨著模型智能的提升,我認為轉變是朝向更高層次的專業知識發展。但基本上,我們從自動駕駛汽車開始,然後大約從2020年開始,我們實際上開始與政府合作,美國政府。這是因為我在洛斯阿拉莫斯長大並意識到AI很可能是對我們安全非常重要的技術。

我們可以在這裡稍作側記,你在2022年於Substack上寫了一篇非常有趣的文章,《人工智能戰爭及如何取勝》。請分享你的論點以及為什麼你認為這是件大事。

AW: 是的,我認為基本要旨首先是,如果你觀察人類歷史的長弧,它被戰爭所點綴。在某種意義上,人類歷史全都與戰爭有關,然後如果你觀察戰爭的歷史,那麼在某種意義上戰爭的歷史全都與技術有關。特別是看看從第一次世界大戰到第二次世界大戰再到未來的戰爭之間的轉變,例如海灣戰爭,最重要或者說影響這些戰爭結果真正發揮巨大作用的因素無疑是對技術的存取。顯然這跟我的成長背景深深相連,在洛斯阿拉莫斯長大,基本上每年都會有幾天時間專門學習洛斯阿拉莫斯國家實驗室及其起源。

那麼接下來你就會思考,“好吧, 現今正在建造哪些相關技術?”,而且我認為有一系列重要技術存在, 如高超音速飛彈、太空科技等等。但AI可以非常容易地被視作最重要的。如果你能解決問題解決能力, 那麼突然間你就擁有了這個難以置信地強大優勢。

如果你相信AI對硬實力非常重要, 對美國硬實力來說至關重要, 我認為這對確保我們生活方式得以延續非常重要, 那麼最令我震驚的事情是查看中共[中國共產黨]對AI所言之事物時發現了什麼, 他們中有官員曾直言不諱地表示:“我們相信AI是成為世界軍事超級大國的機會”。他們大致如此表示,“嘿, 美國人不會投入足夠多資源到AI上面去, 因此通過比例更多地投資於AI來打亂他們,並做到即使我們在軍費開支方面遠少於他們也能在能力上超越他們。” 我認為作為一個初創企業者來說這正是核心創新者困境或CCP對由人工智能驅動下關於戰爭具備顛覆性論斷核心所在。

BT:這基本上是認為你將會看到各種由人工智能控制的自主車輛、無人機等,與美國擁有的這些非常精密但需人操作的系統相比,美國將陷入一個陷阱,那就是試圖增強那些系統,而不是從預設完全可拋棄的硬體開始。

AW:是的,我認為其核心有兩大論點。一個是完美的監視和情報,在某種程度上類似於CIA形式的情報,而這我認為不難相信。很明顯,在中國,他們實施了跨國臉部識別軟體作為他們首款殺手級AI應用程序,並不需要太多思考就可以想到,“好吧,如果你有了那個,那麼只需延伸這條線,你就或多或少能全面掌握世界上正在發生什麼”,所以我認為這不難想像。

然後關於你提到的熱戰場景,是的,無人機群在陸地、空中或海洋中能夠完美協同作戰並超越任何人類。

我認為當人們聽到AI時,他們想到的是生成式AI、LLMs、OpenAI等等,並假設那是美國公司,谷歌是美國公司等等,因此美國領先。這顯然是更廣泛地將AI視為一種自主操作者來思考。美國是否領先或你怎麼看?

AW:我認為從純技術基礎上來說,是的,美國領先。中國迅速趕了上來。中園有兩個非常好的開源模型。一個是易大模型(YiLarge),出自李開復的公司01.ai。另一個則是出自阿里巴巴的Qwen 2, 這兩個都屬於世界上最好的開源模型之列而且實際上相當不錯。

他們有使用Scale AI的數據嗎?

AW:不,我們基本上出於與美國軍方合作相同的原因,不為任何中國公司提供服務。YiLarge基本上是一個達到GPT-4水平的模型,它被開源並且表現相當好,所以我認為在技術層面上,美國領先,在默認情況下我認為美國將保持領先。

有一個問題最近被Leopold Aschenbrenner大力關注,那就是實驗室安全性。所以我們處於領先地位,但如果所有這些都可以通過間諜活動輕易洩露掉的話,那麼這種領先就沒有意義了。最近就發生了這樣一起案件, 來自Google的工程師林偉(Linwei Ding)竊取了TPU v6和所有其他秘密。

而且六個月都未被發現。

AW:是啊, 六個月都沒發現, 而他做到這一點的方式是將代碼複製粘貼進蘋果筆記然後導出為PDF文件, 這樣就能繞過所有安全控制。

Creating Expertise

那麼,這與您開始簽訂政府合約的中間階段有何關聯?那些合約是關於什麼的?

AW:是的,所以我基本上意識到了,而且我經歷的重點是美國在將人工智慧整合進國家安全和軍事領域方面,預設是會表現不佳的,很大一部分原因是因為一段時間以來 — — 現在情況已經沒那麼嚴重了,但有一段時間 — — 科技公司積極地不想幫助國防部(DOD),也不想積極增強美國軍事能力,這基於某種意識形態等等。即使到現在,國防部和美國政府在創新方面仍然做得不夠好,並且存在許多官僚作風阻礙。所以我基本上就決定像這樣:“嘿, Scale, 我們是一家人工智慧公司, 我們應該幫助美國政府。”

我們開始幫助他們,並與他們合作解決所有他們需要訓練專門影像探測器或針對其各種用例的專門影像探測算法的數據問題。這是首次涉足需要大量專業知識才能有效完成的領域,因為根本上說來, 美國政府有很多非常、非常特殊化的數據類型和數據。這些都是他們付費購買的專門傳感器,在關注通常來說普通民眾並不關心但對於它們卻極為重要之物 — — 外國軍隊移動及你可能會想象軍事關心之類事項 — — 因此需要反映所有行業手法、細微差別及必需能力之數據;這便是最初幾個領域之一。

我們實際上在St. Louis設有一個設施, 那裡有許多受過充分訓練理解所有這些軍事數據進行標注工作的人員。

BT:所以這是你們全球員工的一次明確分離嗎?

AW: 對,完全正確。這是一個明顯的轉折點,我們從做著幾乎世界上任何人都能夠,只要付出足夠努力就能有效完成且做得好的問題,變成了像Uber司機那樣,一種非常廣泛市場視角的事情,轉向需要特定專業知識和能力才能極其出色地完成的事物。

這種數據階段轉換 — — 對我們來說有種頓悟,“哦,實際上在極限情況下幾乎所有數據標注、幾乎所有數據注釋最終都會以專門化形式存在”,因為技術發展弧線是首先我們要建立起所有這些通用能力,在初期階段建立所有這些通用能力,但然後所有經濟價值都將來自於它被特殊化到各個具體使用案例和行業及能力中,並流入經濟的各個細縫中。

BT:嗯,不過你剛才提到的第一個問題啊, 它超級操作困難而你解決了許多人無需面對的問題。那麼第二部分呢?它也操作困難或者只是需要有合適的專家?是什麼使得這些新問題、這些小眾問題變得困難?

AW: 不, 我認為它實際上加倍困難因為你面對著之前所擁有過同樣問題, 即你必須處理這些運營問題並讓複雜群體進行高質量工作以供算法使用,並確保數據品質最終非常高。但現在你又面臨第二重問題, 需要去招募一個非常分散化市場並確保你擁有一個涵蓋每種可能語言、每個可能學科領域、不同職業和專長廣泛網絡從而實際覆蓋廣大人類知識範疇。

我認為一個比喻就是如果考慮Airbnb, 我們將Airbnb視為一個大型市場, 但實際上它由許多子市場或非常分散子市場混合組成之原因之一使得打敗Airbnb如此艱難就在於您不能僅僅整合他們供應鏈中某個子部份然後可行性競爭, 實際上您需要找出如何跨越他們已經成功招募房東進駐其中全部細縫供應鏈來整合,並且我認為如果說還有什麼話題更加使商業模式從純粹堡壘與防禦性角度看變得更加引人入勝。

那麼,什麼更大、對於差異化來說更重要呢?因為你可以去Airbnb,你可能會說,“嗯,他們能夠聚集所有這些不同的子細分市場的原因是因為他們有消費者需求”,所以這最終是吸引供應商加入其平台的拉力。當然,這裡有先有雞還是先有蛋的問題,但當談到規模時,是不是“看吧,我們有需求且可能表現出來,我們有錢支付給這些專家”,而這是他們可以意識到的事情?或者是“我們擁有了專家然後我們就可以去確保供應量, 因此我們可以獲得需求”?方向流動如何?

AW:我認為它兩者都佔一部分。一般來說,我認為我們在市場上聚集了巨大部分的需求, 所以因此我們擁有資源和能力去招募每種語言、每個領域、每個工作類別、每種工作族群中的專家,並能夠構建這種廣泛性網絡。但隨後它成為一個自強化循環, 因為一旦你擁有了這樣廣度和深度的貢獻者網絡, 那麼對於新模型開發人員來說非常容易快速啓動基本上新數據集並利用相同專家網絡獲取新數據訪問權。所以很難說哪個是循環的起始點, 但循環活躍且良好進行著。

BT;所以,如果這很重要,如果數據實際上是長期來看最大的區別因素,而你是數據之王,難道沒有一種感覺你在將市場商品化嗎?因為每個人最終都會得到相同的數據?是否有一個強烈的動力表明,如果有人想建立一個高度差異化的模型,雖然看似困難,他們需要重新創造你正在做的某些方面,只是為了他們能夠擁有一些獨特之處?

AW:嗯,我認為這裡有兩點思考。第一是這個專家市場及其執行高質量工作的能力,在很大程度上我認為已投入了巨額成本來建設這方面,並且非常難以完全複製我們所建立的東西;我不認為我們許多客戶特別渴望去做那件事。我認為許多客戶被驅動的是他們區分自己平台真正意味著,“好吧, 存在所有這些人類專家並且我們可以讓他們以各種方式產生數據, 對於我們算法來說哪些方法最佳?” 並真正地在使用這些專家以不同方式產生數據為系統創新。

他們會給你提供這些方法去實施還是怎樣進行合作關係?

AW:兩者兼而有之。我的意思是歸根結底所有這些方法涉及到與客戶模型之間緊密整合, 所以通常一個非常先進大型語言模型它們希望通過某種方式改進和人類輸入方式。

所述早期版本就像我早前在採訪中提到過RLHF(從人類反饋中學習增強),核心上它非常簡單但仍然在某種程度上代表了技術前沿。就像展示給人類專家看模型生成兩個答案版本, 比如問“我應該去意大利哪裡遊覽?”, 或者“應該去佛羅倫薩哪裡?”, 然後展示兩個答案版本, 由一個人類專家挑選出他們認為更好的一個, 然後反復進行此過程。顯然這涉及與客戶模型緊密整合,並且通過足夠樣本數量學習,在相當粗略水平理解什麼是人類喜歡和認為更好然後通過增強學習優化沿著那條曲線進行調整。那是最簡單形式, 我認為此方向已經取得了很多創新。

其中發佈過一個叫做流程監督(Process Supervision) 的東西出自OpenAI,在此您對模型提問數學問題或其他內容時它會產生完整推理鏈。“比如說右角三角形邊長3和4求斜邊”,接下來它開始推理,“好吧 這個右角三角形表示您可以應用勾股定理 如果應用勾股定理 那麼3平方加4平方等於X平方 解出X”。無論如何 這就步驟階段 然後數學專家-

現在我們已經達到了一個18個月大的Alex Wang所具有的能力,但是,是的。

AW:(笑)然後一位數學專家會過來說,“哦,你在這步驟出錯了,而且這就是你犯下的錯誤”,接著各實驗室都在沿著這條曲線競爭著更高水平的創新,“提取或利用人類專家最好的方法是什麼?”,我認為那才是相關差異化的層面。

所以,只是為了確保我理解這個過程,你從非常初級的標記開始,主要是圖像的標記,與政府合作,推動更多向專家層面轉變的標記者。然後,第三步呢?這是否相當於從數據標注或數據生成上升到另一方面,即參與RLHF過程?大量新工作是在這裡嗎?還是你仍然在做大量原始數據生成?

AW:是的,在這一點上界限有些模糊了因為我認為我們的客戶仍然把它全部視為數據標注或數據生成。但正如你所指出的,過程的複雜性隨著時間顯著增加,並且我認為這個過程的複雜性會持續增加,並且在利用 — — 我的意思是可能放大來看待此事最恰當方式就是對於每盎司人類智力、專家智力而言, 如何以每消耗一瓦特人類智力來最大化地改善模型?

BT:這是你正在解決的事情,還是模型製作者在弄清楚的,或者說,你在這個過程中扮演什麼角色呢?就應用專業知識於此問題與擁有再次被我認為低估了其防禦性的操作模型相比,誰想要真正去做所有這些工作,但是否存在一個上限,在那之後模型製作者會接手處理?平衡如何?

AW:哦,是的,我會說,在其核心,它們都是非常合作性的關係。但我們看待它的方式大致上是他們的工作是創新算法方法以及確切地如何想要解決這些問題;然後我們的工作就是確保他們有正確的基本元素來保證他們能夠完成那些事情。所以有點像AWS對應用開發者範式一樣, 應用開發者不斷迭代找到建立應用程序獨特方式, 我們只需要提供正確基本元素來使他們能夠這樣做。

這是不是一個故事,講述了為什麼在小型模型上取得重大進展更容易的原因之一?因為在這種情況下,如果你想要建立一個真正優化的小型模型,合成數據實際上可能比原始數據更好,因為它已經經過了某種壓縮步驟,在某些方面來說,但對於大型模型來說可能不適合。把它當作一個恰當的區分是可以的嗎?

AW:我認為如果你想讓一個模型在某些其他模型已經擅長的事情上表現良好,那麼合成數據就是這個故事中很重要的部分。還有很多細微之處需要考量 — — 在產生合成數據的實際過程中,通常也需要相當多人類生成的資料以確保能夠得到正確類型的結果。但廣義而言,是的,如果你希望你的模型在另一個模式已經精通之事領域表現出色, 合成數據確實佔據了其中一部分。

我認為當我們說,“好吧, 我們如何推動這些模式前沿?”時會涉及到智力上的怠惰, 因為今天這些模式還沒有達到我們希望未來所具備能力附近, 這就是我們必須相信將會有巨大數量 — — 這就是我們必須真正創新之處以及我們經常談論方法論中混合使用人類AI、合成數據等方式繼續曲線所描述內容, 如何從個人產出角度獲得最佳效益?

從某種意義上說 AI 是一個偉大生產率工具。那麼是否有辦法利用 AI 作為提高生產率工具使個人能夠更快地產出更多數據呢?簡單例子如若您想對一個提示給出完美答案, 比方說您 的提示像 “X,Y 或 Z 的道德性?”, 然後該模式生成初稿. 專業人士將閱讀並批評幾次然後再編輯幾次批評後. 所以如果您要測量完成整個過程所需時間速度牆 , 如果使用 AI 輔助人類則會快得多。

對,這其實就是一般對AI的銷售說辭。我有個從事平面設計的朋友,他對AI真的非常熱衷,特別是圖像生成或想法生成能力讓他覺得很吸引人,這是否也是一種類似情況,在你看來人類的價值在於編輯過程而不是創造過程中可以更早地拿出初稿?

AW:我認為需要明確傳達的一點是,當今AI發展最大的障礙實際上就是所謂的前沿數據。但要推動模型邊界,你需要前沿數據,而這些前沿數據通常和互聯網上現存的數據大相徑庭。那麼究竟需要什麼才能推動比如說代理能力?每個人都想把這些模型建成表現超好的代理,最大障礙是什麼呢?那就是大量展示模型作為代理時應該做什麼、它們思考連貫性怎樣、當卡住時它們怎麼做、如何自行修正錯誤、應該使用哪些工具、如何使用草稿本等等。關於模型作為代理應當如何表現這方面數據根本不存在。

互聯網上全都完成了輸出結果。你缺失了所有介於起點和終點之間發生步驟及其背後原因。

AW:沒錯,並且我們作為人類經歷這些中間步驟時幾乎從不記錄下來, 幾乎永遠不會完全解釋並展示我們所有工作過程, 因此實際上要將模型提升到下一個能力層次所缺少數據包含了前沿數據、代理行為數據、推理鏈條等必需內容, 所以我認為生產數據手段確實非常關鍵, 就像在產業界我們花費很多時間思考晶片廠(fabs)、芯片生產與計算產出以及電源產出等其他關鍵成分一樣, 我們需要深入思考關於數據生產方式 — — 我們如何確保擁有全部可能性以及最具競爭力去製造新前沿數據輸入到模型中。

數據鑄造所

假設一位模型製作者來到你這裡,他們通過這個過程,開發了一些新的RLHF流程或RLHF 2.0之類的東西來開發和發現這個流程。然後下一位模型製作者出現,他們說:“Scale AI,你能幫忙嗎?”,那麼誰擁有那個流程?是誰弄清楚如何做到這一點的?是不是像台積電,“看吧,我們找出了如何製造更快晶片的方法,每個人都受益?”;還是像“我們是蘋果公司,在我們的晶片中投入了特定的知識產權,那是我們的,不是可以共享的樂高積木塊”?

AW:大體上來說 — — 再次強調,我們是平台提供商,我們採取的方法就是不分享。如果某實驗室創新了什麼,在沒有他們自己決定公佈或揭露之前, 我們不會與其他任何人分享。

而且這些突破在操作性質上與某種新奇知識產權突破相比怎麼樣?

AW:哦, 如果我們說到我們稱為原始層面上發生突破, 那就涉及如何組織人員、確保他們得到恰當培訓以及有效地進行表現管理等方面, 這些顯然會被整合進我們整體平台中。

對啊。但比方說你找出了有效導航用戶界面或訓練模型來完成此任務的方法, 很難劃分界限: 這裡面哪部分屬於洞見而哪部分只關乎操作問題 — — 即讓人們培訓一個模型來導航用戶界面?

AW:沒錯, 好問題。關鍵在於基本思考數據處理基礎工作時真正圍繞著:“好吧, 如何用各種方式調度專家生成這些模型需要使用數據?”, 以及“正確操作這些接口應該採取什麼方式?” 我們不會默認將從一個客戶處構建起來接口洩露給另外一個客戶。

那麼是否意味著其中一些接口由它們提供,並且您只負責提供人力?還是所有事情都運行在您自己軟件上?對於其機制運作方式很好奇。

AW:嗯。大體上它運行在我們軟件上, 但這些建立接口設計過程通常非常協同合作性質很強。通常情況下他們會說:“嘿, 這就類似於我們想要實現目標、認為應該長成什麼樣子”,然後我們回答:“好吧, 是根據我們專業知識實際設計。” 再次說明雲計算類比非常恰當因為最終每個選擇AWS服務客戶並沒有真正決定如何設計其雲端架構; 而存在幫助其做所有底層設計決策互聯網顧問。

BT:所以你剛募集到10億美元資金,在140億美元估值下完成交易額加倍增長;相較幾年前二級市場稍微有點跌落。這只不過AI炒作列車效應嗎? 或者向前看業務是否存在重大轉變? 投身投資者角度思考下。近期與多名投資者交談中感覺未來機遇主要聚焦點在哪裡?

AW: 我認為核心簡化歸納成簡單標語就”數據領域內Nvidia” 顯示Nvidia已經明確證明無論利潤大小還企業規模均具備可觀數字; 並且我們扮演AI堆棧並行支柱角色. 需求三項內容: 計算、數據和算法; 我們角色則致力成為數據領域內平台玩家.

所以你視自己專家還參與者身份? 即代表TSMC關係?

AW: 好吧 我們參與者至關重要 確實 可以把他門視作TSMC 畢竟從某種意義解釋 —

(笑) 公道地說 很快理解失效

AW: 分析斷開 不過核心含義 若展望未來 數據 — 大量談論針對這類模式計算密集度和計算瓶頸問題 但隨時間推移 數據瓶顏越發明顯.

基本上全球皆陷入此艱難挖掘 解決需求迫切 因此必須由某方解決 已耗費八至十年時間 致力攻堅戰略 相當直截了當 儘管可能無法達Nvidia式利潤率 邊緣 經手數十萬名員工完成任務.

AW: 是 同時另外精彩之處今日收入僅佔Nvidia1% 主因預算主要配置計算資源 方向 若按任意組合優化問題處理 時間推移若數據確實構成最大擠壓點 預算配置將漸向數據轉移 相較當前1%預算 即使達5%或10%,則展示出相當驚人增長故事 數據版圖.

更具反諷或悖論之處 在物理學家養育Olympiad選手 實際管理天文數字級別員工問題 上述 Scale AI — 當思考相關話題 覺得圍繞龐大模式開展 實則背後隱藏海量瑣碎功夫.

AW: 其中一位投資者 彼得·蒂爾 曾言 公司初見時 提及公司命名 和 其投資理念 — 他極聰明投資家 所述部分帶笑話色彩 — 其中一個理念 “Scale AI 名字非常棒”

AW: 我們的一位投資者,實際上是彼得·泰爾,在我與他討論公司時曾說過這樣的話,而且他的一個投資理念 — — 他是個非常聰明的投資者,所以這有點像是個玩笑 — — 但他的一項投資理念就是:“這真是個好名字,Scale AI, 真的很棒。”

但我認為這其實觸及了核心,那就是我認為我們 — — 首先,我們在這種規模成為所有模型所需之前就命名了公司,因此事情發展得很順利。但通常來說,正如Nvidia和TSMC以及整條供應鏈已能夠為計算提供巨大規模一樣,我認為我們的工作是確保在數據方面也能有巨大規模,並且LLM中的第一步只不過是採納整個互聯網而已,但下一步必須要有某種生產方式。

如果你可以重新再來一次會做出什養不同?我的意思是你創立公司時還很年輕。你必須解決全球範圍內的採源問題, 然後又面臨美國本土採源問題。如果可以重新開始, 你會怎麼做?

AW: 我想說其中一件事情我們做得不錯, 但老實說如果重來一個機會, 我會更加倍地去注重它, 那就是AI作為技術自身具備極強自我顛覆性質,在這個意義上看待我們2016年開始涉足卷積神經網絡時正在做什麼活動,在某種程度上顯得如此過時且相對於今天大型語言模型來說並不重要;而且六年後回頭看時我們將發現完全不同的模型範式、完全不同底層AI範式。因此從AI退後幾步來看我的認識則為技術尚處初級階段並且科技進步速度極快導致它將多次自行顛覆;這對我們意味著實際應該將更高比例資源進行投資,並確實如此向新方法、新起之秀AI手法方向努力,並確保我們總能有效服務於這些。

與[Nvidia CEO] Jensen [Huang] 和 Nvidia 對待業務方式異曲同工。他們原本主攻遊戲業務然後硬轉向AI訓練問題因為認為那個問題極具吸引力同時也構築了護城河使其成長為可能全球最大企業。

BT: 嗯, 我指Nvidia非常性感; 而最吸引人注意到您業務部分恰恰其非性感之處 — 人們不喜歡考慮、也不願談論之處; 正因無人問津該區域似乎變成相當大優勢。

AW: 是挺有趣; 很多跟我參加數學競賽或通過數學競賽日子里認識到許多人都在AI產業內取得顯著位置例如Paul Christiano 或其他許多人。[OpenAI President] Greg Brockman 在營里給過演講; 認為他們所有人在研究層面完成工作簡直令人難以置信. 但對於幕後安靜完成雜活推動產業發展方面我們感到十分滿意.

Alex Wang 很高興與您交談期待未來再次交流

AW: 是啊 感謝您邀請參與.

--

--