為群眾智慧加入 AI,Golden 要挑戰維基百科

Golden 以 AI 加快知識庫編纂,彌補維基百科與 Google 搜尋之間龐大的知識量差距

Matt Yu
Matt Yu
Nov 25 · 9 min read
Photo via Unsplash

Google 搜尋跟維基百科(Wikipedia),已經成為現代人的重要知識來源。任何人只要有任何不理解的事情,往往都會先求助於 Google 搜尋,若想要更深入理解的話,就會再找上維基百科,這個由網友合力編纂的線上知識庫。但你可知道,其實有很多知識在維基百科上是找不到相關條目的嗎?

根據資料統計,維基百科的英文版目前擁有近 600 萬則條目,但 Google 用來優化搜尋的知識圖譜(Google Knowledge Graph。Google 透過爬蟲產出的結構性資料,當使用者搜尋特定人事物時,會出現在搜尋結果右欄的內容。),在 2016 年據稱已擁有 700 億個搜尋結果。¹在 600 萬與 700 億之間,超過萬倍的知識庫規模差距,正是維基百科最為人詬病的一點。這主要肇因於維基百科認為該條目需要達到足夠的「關注度」(Notability),才有資格被列在維基百科中。這也導致大量的知識,要不是從未在維基百科上出現,就是可能消失又出現了好幾回。而新創公司 Golden 正試圖結合人工智慧的技術,解決這之間的落差。

人工智慧如何加快線上知識庫編寫的速度?

Golden 的創辦人 Jude Gomila 自己雖然也是維基百科的愛好者,但他認為:「我們正活在極度小眾化(niches)的年代,在這年代,驗證與完整程度的重要性更勝於關注度⋯⋯當前百科全書對關注度的限制,導致關於有趣且有用的小眾話題的知識不容易被取得。因此,我們採取知識最大化的途徑。」²

其實,「決定誰可以被看到,誰不被看到」的資訊守門人議題,在網路世界早就不是新鮮事。為了維持維基百科的權威性,不難理解管理者想確保站上的條目,在社會中都擁有一定的關注度,而不是什麼阿貓阿狗都可以變成維基百科一部分。但換個角度來說,正如科技作家凱文・凱利(Kevin Kelly)所提到,在這個年代,當任何議題與產品只要擁有 1,000 名鐵粉就能夠維生。³在此前提之下,這 1,000 人的共同喜好,雖然只佔了全世界 70 億人的一小部分,但難道就不值得成為維基百科的條目之一嗎?

Golden 網站截圖

於 2017 年創立,並於 2019 年正式上線的 Golden,致力於打造最完整知識的線上知識庫。日前他們募得 500 萬美元的種子輪,其中包含 a16z、 Gigafund、Founders Fund、SV Angel,以及幾位天使投資人的投資。也被選為 Product Hunt 2019 年 5 月的該月產品的第二名。

Golden 的人工智慧,如何加快編寫線上知識庫的速度?

根據創辦人 Jude Gomila 表示,Golden 在系統上可以透過人工智慧搭配爬蟲:由爬蟲從網路上蒐集資料,再交由人工智慧判定哪些蒐集到的段落與特定條目相關,這些段落會再交由人類協作者進行判斷正確與否,最終再整合至條目內容之中。此外,當 Golden 的協作者想要創立新條目,且認為條目的內容,可以由數個網頁的內容集結而成時,Golden 也提供工具讓協作者可以直接貼入連結,並由系統抓取相關內容後,再統整至條目之中並加上註解,大幅降低創造內容時所需耗費的心神與時間,如此一來也能在更短的時間內,產出更多的內容。

由此可見,Golden 在嘗試的不僅是填補維基百科條目以及 Google 知識圖表之間的巨幅落差。同時也引入自動化的流程,協助人類進行資料整理與蒐集,讓人類參與者能夠更輕易地透過建構知識庫。

從 Golden 的資料結構與介面設計,都可以看得出設計團隊有意識地想把人工智慧帶入知識庫的編纂流程中,其中最顯著的一點,就是資料的構成高度結構化與階層化的:例如,在條目的分類上,都會加上「人」、「公司」、「地方」等常見於知識圖譜的標籤;此外,Golden 也偏好用試算表、時間軸這種有明確對應的形式來呈現。這樣的知識庫結構設計,讓機器的寫入與讀取都容易許多。

此外,與維基百科另一個不同的地方是,Golden 也強調條目內容之外的延伸性,所以也提供延伸閱讀,以及相關新聞的欄目,讓對此議題有興趣的讀者可以進一步認識。雖然 Golden 與維基百科不同,是由私人公司所經營(維基百科則是由非營利組織維基媒體基金會 Wikimedia Foundation 所經營),但其站上的內容,都是以 CC-BY-SA 4.0 的授權方式釋出,因此所有的網路使用者都能免費閱讀知識庫中的內容。

Golden 的 Medium 條目內容截圖

比維基百科簡潔的編輯界面,並加入 AI 的輔助;實名制的社群機制,降低惡意修改,也協助打造個人品牌

除了在資料蒐集與整理的流程中導入人工智慧之外,當協作者使用 Golden 的編輯器時,人工智慧不僅會在文法與錯別字上幫助協作者,甚至當編輯內容過度偏頗或不適當時,也會提出修正的提醒。而如果像我一樣有編輯過維基百科的讀者,應該也對維基百科預設的編輯器其複雜程度「印象深刻」吧?相較之下,Golden 的 WYSIWYG 編輯器介面就友善許多;此外,Golden 也有提供快捷鍵的功能,讓協作者能夠更快速地進行編纂的工作。

在 Golden 的 Product Hunt 討論頁面中, Vungle 創辦人 Jack Smith,這位在測試階段就在使用 Golden 的協作者,就針對他分別在維基百科跟 Golden 的編纂體驗做比較:他認為維基百科的編輯器對不常參與的人,會感到困惑。而維基百科對「關注度」等不一致標準的需求,也導致他辛辛苦苦寫的內容,就被管理者給刪除了。相比之下,Golden 的 WYSIWYG 的編輯器就簡單明瞭許多;此外,Golden 也不會無緣無故就刪除掉他的條目。

雖然他也抱怨到 Golden 的「群組(Cluster)、主題(Topic)與分類(Category)」讓人在使用上感到些許困惑。此外,他認為 Golden 的 AI 編輯器雖然還有點粗淺,但能夠協助從眾多網站抓取內容,並完成註解,著實減少了許多重複的工作。⁴

而 Golden 另一個與維基百科不同的地方是加入實名制社群的機制,不僅確保資料不會遭受匿名人士的惡意修改,對各領域的專業人士而言,也是一個形塑個人品牌的絕佳方式,因為在各條目都可以檢視哪些人對內容貢獻最多,也提供個人頁面,不僅能提供自己的相關資訊,他人也可以檢視其過去所做的貢獻,以及所追蹤的主題。

想成為知識界的 GitHub,Golden 要用演算法強化搜尋結果

像 GitHub 跟 GitLab 等程式碼代管的平台,無論是公司內部使用的私人程式碼,或者是由社群貢獻的開源程式碼,都可以同時存放在平台上,並透過 Git 等版本控制的功能進行協作。Golden 雖然現階段僅專注於公開百科的知識庫開發,但是他們也計畫在未來將 Golden 發展為知識界的 GitHub,讓公開和私人的知識庫都能藉由 Golden 強大的搜尋演算法以及編輯介面,讓知識更容易被取得並利用。

Golden 現階段所提供的商業模式,是讓付費的企業與組織能更精準且快速地存取 Golden 上所提供的結構化知識庫,並提供 API 串接的方式,將企業既有的服務系統能與 Golden 上的知識相互串接。而除了存取 Golden 既有的知識之外, Golden 也讓付費用戶上傳結構性的資料,並透過 Golden 將這些資料轉變為 API,讓相關人員使用,無需為這些資料寫一個特定的 API。

革命尚未成功,Golden 仍須努力

雖然擁有遠大的願景,但剛起步的 Golden 在內容上仍無法與維基百科匹敵。在科技、新創以及生醫等特定知識領域中,Golden 確實擁有比維基百科更為豐富的內容,但普遍性的內容則相對缺乏。我認為很可能跟創辦人 Jude Gomila 個人經驗有關:除了曾創辦 Heyzap 外,他也是上百間公司的天使投資人。在他的個人網站上,明顯可看得出他對生醫與太空的興趣。⁵在 Golden 上面我搜尋包含「Taiwan」、「Baseball」、「Disney」等字詞,目前在 Golden 上的資料只能說是乏善可陳,更遑論中文化。畢竟維基百科已有 18 年的歷史,也吸引到眾多的網友為其貢獻內容。

除了 Golden 之外,也有不同企業嘗試用各種方式挑戰維基百科的霸主地位。像是 Everpedia,就帶入廣告銷售的模式,並加入區塊鏈的技術,不僅讓站上的知識能夠以分散式的方式被儲存,也提供參與編輯的者相對應的獎勵。而老牌的知識庫平台 Wolfram Alpha⁷ 則是整合了跨學科的資料庫,並讓使用者可以用自然語言(像是「誰是現任美國總統」)獲取知識,此外也提供付費版的附加功能,像是將資料庫與企業的服務做整合,以及提供更全面的資料庫供使用者檢索等等。

雖然距離 Golden 取代維基百科還有很長的一段路要走,但隨著網際網路上的知識日漸碎片化,資訊爆炸的問題日漸嚴重,個人與企業要如何擁有並建立一個可靠的線上知識庫,勢必會成為重大的議題之一。

結合區塊鏈技術的 Everpedia 截圖

Star Rocket

Star Rocket 三創育成是非營利的創新育成機構, 以「人」為核心,「科技」為養分,致力成為最開放的創新育成空間,透過自辦課程跟活動策展,活絡台灣創新與技術社群,並培育創新創業人才;同時,藉由內容產製跟資料庫的建立,追蹤、記錄創新故事,啟發人們踏入創新航道。

Matt Yu

Written by

Matt Yu

If in Maokong a reader.

Star Rocket

Star Rocket 三創育成是非營利的創新育成機構, 以「人」為核心,「科技」為養分,致力成為最開放的創新育成空間,透過自辦課程跟活動策展,活絡台灣創新與技術社群,並培育創新創業人才;同時,藉由內容產製跟資料庫的建立,追蹤、記錄創新故事,啟發人們踏入創新航道。

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade