鳥瞰人工智能:Twitter 辦公室一遊

Twitter 應該是世界上最有影響力的社交媒體之一。直至 2018 年尾,它大約有一億兩千萬個每日活躍用戶,成為和 KOL 與群眾交流的渠道。另外,社會學家可以存取 Twitter 用戶發出過的信息,探討人類的大規模行為,例如天氣普遍影響心情的實證暴力事件的前期跡象等等。

很難想像,這家公司全球的僱員加起來只有約三千九百人。這些「被選中的人」每天的工作又是怎樣的呢?筆者跟大約二十個博士生在二月二十七號應邀到 Twitter 的洛杉磯辦公室,獲益匪淺,借此文記錄經歷。 #MLFlockTalk

A Los Angeles Picture for a Los Anglican Article (Wikimedia)

利申:Twitter 舉辦類似活動 ,目的是為技術團隊吸引新血,可想而知會偏向呈現公司的正面形象。


當晚氣氛、工作環境

Twitter 的洛杉磯(郡)辦公室位於著名海邊城市 Santa Monica,活動晚上六點開始、九時結束。到訪公司似乎是正經八百的事情,但筆者到步後才發現西裝革履是多餘的。活動形式就是個與晚餐同時進行的對話,讓工程師和學生們在輕鬆的氣氛下交流。以上的安排,跟 Twitter 希望營造的開放工作環境相符合。There are no cubicles — and Twitter does not believe in cubicles.

Twitter 洛杉磯辦公室 G/F;1/F 為開放式會議室(筆者照片)

學生大約有二十人,華人國際學生佔超過三分之一。根據負責活動的員工,參加者是經過簡歷篩選後、從一百多人中選出來的。的確,筆者身邊的人都很優秀:有人跟投資銀行合作(co-op)進行數學研究,亦有同學甚至已經拿到 Google Brain 和 NVIDIA 的實習 offer。

而出席的工程師有兩位,Behnam 和 Krisna,都是在 Twitter 獨當一面的管理人員。感謝他們在工作日從三藩市坐飛機到洛杉磯跟我們見面!

當晚情況如上。那麼 Twitter 作為一家科技公司,會怎樣利用科技服務用家、並達到商業目的呢?要知道 Twitter 的盈利途徑有兩個:作為廣告平台,以及授權企業或者學者分析用戶數據。有鑑於此,增加用戶數量是獲利的主要手段,而聚會當晚提到有幾個辦法。


估算用戶狀態、輕度調節內容

用家體驗是重要的一環。Twitter 自身定位為即時信息平台,無論是政治大選或者是天災人禍都能實時反映。因此,對用戶手機推送信息的頻率是個學問:怎樣抓著用戶的注意力、但又不煩擾到他們呢?這是平台操作上的一個重要細節,可以透過手機使用習慣量化、研究。工程師們說得明明白白:手機上的加速度儀(Accelerometer)反映了用戶的移動狀態和抓拿手機的姿勢,是決定是否推送信息的重要因素。

以上的還是細節;更重要的是,怎樣才能確保用戶看到「有意義」的信息,而在過程中保持心情良好呢?尤其在政治兩極化的社會,不同陣營的人在虛擬世界不但會互相鞭撻,有心人更會故意挑起罵戰、轉移視線等等。有鑑於此公司決定,讓純屬挑機、但又沒有違反平台規則的內容的「沉底 」。跟 Facebook、Instagram 等社交平台一樣,Twitter 顯示內容的順序是由推薦算法決定的;如果內容作者沒有確認電郵地址、或者在短時間內申請多個帳號等等,推薦系統會降低內容的顯示次序。

與此同時,Twitter 依靠人工審查處理用戶對騷擾者的投訴。筆者簡單的 Google 搜索後找不到 Twitter 審查員的數量,但作為對比 FacebookYouTube 都聘請了接近或超過一萬個審查員,並將工作外判到印度和菲律賓等時薪較低的地方。

(筆者聽罷向工程師 Behnam 發問:如果用戶投訴是干涉內容的重要起因,而投訴減隨時間減少是衡量措施效用的指標,那麼有沒有辦法防止有心人濫用投訴機制呢?工程師表示:非常困難,他個人也沒有萬全的解決方案,暫時只能依靠人工審查員把關。)


精準投放腦力、採用最新技術

同樣令筆者印象深刻的,是 Twitter 為盈利而建立的 「Growth org」 團隊架構。簡單來說,有專門的技術團隊研究 1)新用戶;2)現有活躍用戶;3)長時間棄用後重新歸來的用戶,並回應每個群體獨特的需求。三管齊下加上與其他內部團隊的合作,希望為 Twitter 帶來持續增長。

關於 Growth Org 的 PPT 頁面(筆者照片)

比較新奇的是,Twitter 的後台算法和設計職能沒有明顯分開;工程師和設計師們會一齊直接參與介面的設計。不知道這樣的安排效果如何呢?

另一方面,當提到 Twitter 對技術的態度時,當晚出席的兩位工程師都很自豪:跟 「某些大公司」 不一樣,Twitter 非常願意嘗試複雜和新穎的機器學習模型及工具,例如基於圖論的深度學習、Apache KafkaMongoDB 等等。而工程師們則偏好使用 Scala 語言驅動平台;與更受歡迎的 Python 相比,Scala 會自動檢查變數的種類,而且同樣容易上手。


小結

基於推薦算法的平台早已跟網上生活不可脫離:無論是 Google 的個人化搜索結果、抑或是 Facebook 和 Twitter 對信息的黑箱排序,都會直接塑造我們對世事和他人的想法的理解。雖然 Twitter 在過去的三個季度都流失了用戶,但它暫時依然是行業龍頭之一,其所作所為會成為榜樣並且影響深遠。如果這家公司有當晚活動提到的一半社會負責心,那麼筆者就稍為放心了。