[快速帶你看] 目標終結幻覺?DataGemma 介紹

Simon Liu
9 min readSep 13, 2024

--

隨著當今大型語言模型 (LLM) 持續發展,大家想要解決的事情越來越複雜。這些模型雖然是可以梳理大量文字並產生摘要,提出新的創意方向,甚至是撰寫程式碼。然而 LLM 有時會自信地提供不準確的資訊,這種狀況會被稱作「幻覺」,是在發展生成式人工智慧的關鍵挑戰。

Google 在 9/12 公佈了新的模型,名字叫做 DataGemma,DataGemma 是世界上第一個希望能夠以真實世界統計數據來幫助解決幻覺的開源 LLM 模型,基於 Google Gemma 所實作的模型,接下來的內容,會簡單介紹一下 DataGemma 在做什麼。

透過現實世界的統計資訊中來幫助減少幻覺

DataGemma 這次有一個很重要的事情,就是希望能夠透過現實世界的統計資訊中,來幫助減少幻覺。

I. 資料共享:需要一個龐大公開可用、值得信賴的資料儲存庫

Data Commons 是這次 Google DataGemma 所使用,一個公開的知識圖譜,包含數十萬個統計變數中超過 2400 億個豐富的資料點。它從聯合國 (UN)、世界衛生組織 (WHO)、疾病管制與預防中心 (CDC) 和人口普查局等值得信賴的組織獲取這些公共資訊。將這些資料集組合成一套統一的工具和人工智慧模型,使政策制定者、研究人員和組織能夠尋求準確的見解。

II. 數據共享如何幫助解決幻覺?

隨著生成式人工智慧的採用不斷增加,Google 期待能夠將上面的 Data Commons 資料共享資料儲存褲,整合到 Gemma 模型中,來減少幻覺產生的可能性,也因此 DataGemma 使用兩種不同的方法來增強 LLM 的事實性和推理能力,從而擴展 Gemma 模型的功能:

  • RIG(檢索交錯產生)透過主動查詢可信任來源,並對資料共享中的資訊進行事實檢查,讓 Gemma 2 的資料正確度提高。也因此,當我對 DataGemma 下 Prompt 之後,模型先將答案生成出來,並且在數字驗證上,從 Data Commons 搜尋答案並且呈現結果。

以下是 RIG 的運作方式:

  1. 使用者查詢:使用者向大型語言模型(LLM)提交查詢。
  2. 初始回應與 Data Commons 查詢:先讓 DataGemma 模型生成一個回應,其中包括一個自然語言查詢,通過 Data Commons 的現有自然語言介面來檢索相關數據。
  3. 數據檢索與修正:查詢 Data Commons,檢索數據。這些數據以及來源資訊和鏈接將被用來替換初始回應中可能不準確的數字。
  4. 含來源連結的最終回應:最終回應呈現給使用者,並包含來源數據的鏈接和 Data Commons 中的元數據,以確保透明度和可驗證性。

RIG 如果拿看棒球的例子來說,我在棒球場,如果被朋友問到最近台鋼雄鷹的外籍打者魔鷹打擊狀況如何?我就會說他最近打擊狀況不錯,我記得目前已經累積 20支的全壘打,但我也同步上網查一下資料,根據中華職棒提供的官方數據,目前魔鷹全壘打支數已經到達 26支,是目前聯盟的第一名。

2. RAG(檢索增強生成)使語言模型能夠納入訓練資料之外的相關信息,吸收更多上下文,並實現更全面和資訊豐富的輸出。借助 DataGemma,這可以透過利用 Gemini 1.5 Pro 的長上下文視窗來實現。 DataGemma 在模型啟動響應生成之前從 Data Commons 檢索相關上下文訊息,從而最大限度地降低幻覺風險並提高響應的準確性。

以下是 RAG 的運作方式:

  1. 使用者提出查詢: 使用者以自然語言提出需要查詢數據或統計信息的問句。
  2. DataGemma 產生相關查詢: DataGemma 利用 Gemma 模型(RIG 方法使用微調過的 Gemma 模型,RAG 方法則使用經過兩階段微調的 Gemma-2 模型)將使用者查詢轉換為與 Data Commons 相容的自然語言查詢。
  3. Data Commons 檢索數據: Data Commons 根據接收到的查詢,從其龐大的數據庫中檢索相關數據,並以表格形式返回結果。
  4. DataGemma 生成最終答案:DataGemma 將 Data Commons 返回的數據表格添加到用戶的原始查詢中,再將其輸入長上下文 LLM 模型 (Gemini 1.5 Pro) 中,最終生成包含數據分析和推論的答案。

RAG 我也有寫過一篇文章,歡迎參考看看內容:

RAG 如果拿看棒球的例子來說,我在棒球場,如果被朋友問到最近台鋼雄鷹的外籍打者魔鷹打擊狀況如何?我就會先打開中華職棒官方網站,查詢全壘打排行榜,然後再跟朋友說,根據我從中華職棒官方網站上查到,目前魔鷹的全壘打支數已經到達 26支全壘打,是目前聯盟的第一名。

III. RIG 和 RAG 如果用流程圖表示差異

RIG 和 RAG 都是透過結合 LLM 和 Data Commons 來提高 LLM 回答基於事實查詢的準確性的方法,兩者各有優缺點。 RIG 較適用於單一統計數據的查詢,而 RAG 更適合處理需要分析大量數據和進行推論的複雜查詢。

資料來源:DataGemma 論文

DataGemma 的評估結果

從 DataGemma 論文中的資料可以知道,DataGemma 的確在提高 LLM 回答基於事實的查詢的準確性方面展現出一定程度的成效。

RIG 方法在事實準確度方面有明顯提升: 將 Data Commons 與 7B 和 27B LLM 模型整合後,正確率從 5–17% 提升至約 58%。

RAG 方法在引用數據時準確度很高,但在推論方面則稍有下降: 在引用 Data Commons 表格中的數據時,LLM 的準確度高達 99%,但在根據這些數據進行推論時,準確度則會下降至 72–80%。

用戶普遍偏好使用 DataGemma 的結果: 與未使用 Data Commons 的基準模型相比,使用者更偏好 RIG (62–76%) 和 RAG (92–100%) 產生的答案。

然而,需要注意的是,這些評估結果來自於規模相對較小的測試集(101 個查詢),並且評估過程主要由作者團隊內部進行。 資料中也明確提到了這一點,並表示這可能會影響結果的穩健性和普遍性。此外,DataGemma 的效能也受到 Data Commons 數據覆蓋範圍的限制,目前 Data Commons 並未包含所有類型的數據集。

DataGemma 目前已知的限制

根據提供的資料,DataGemma 目前已知的限制主要包括:

  • Data Commons 數據覆蓋率限制: Data Commons 是一個正在不斷發展的知識庫,目前並未包含所有類型的數據集,這限制了 RIG 和 RAG 方法的效能。 例如,Data Commons 在美國以外的國家,其數據覆蓋範圍較為有限。
  • 模型的發展階段: DataGemma 目前僅處於早期版本,這個版本是在一個非常小的資料庫上訓練的,可能會出現意外的行為,甚至在某些情況下會出現具有爭議性或煽動性的行為。

因此,在使用 DataGemma 時,需要注意這些限制,並謹慎地解讀結果。論文中也提到,目前 Google 團隊也積極在為 DataGemma 的團隊正在努力克服這些限制,並持續改進其功能。

我的看法

現今的 LLM 常常因為缺乏對現實數據的校準,而產生「幻覺」的問題,而這樣的誤差,往往會在實際場域的應用中,帶來嚴重的影響,尤其是對於需要精確數據來進行決策的場域,例如醫療、金融和政策制定。DataGemma 正是希望能夠嘗試來解決這一個困難的挑戰。

首先,DataGemma 使用 Data Commons 這樣的公開知識圖譜,讓模型能夠接觸到來自值得信賴的機構的大量數據來源,如聯合國、世界衛生組織和美國疾病管制與預防中心等。這些數據的透明性和可信度為模型提供了事實校準的基礎,大大減少了幻覺的發生。透過 RIG(檢索交錯產生)和 RAG(檢索增強生成)兩種策略,DataGemma 能夠動態查詢真實數據並將其應用於回應生成的過程中,使得最終的輸出更為準確和可靠。

雖說目前還是一個超級早期的研究階段,可是當模型可以「有憑有據」的回答人類答案時,我們能夠更放心的交給模型做處理的程度,又有機會往上升了,期待後續 Google 研究人員,持續更新這樣的概念,讓模型的能力更往上升。

I am Simon

大家好,我是 Simon 劉育維,是一位 AI 領域解決方案專家,期待能夠幫助企業導入人工智慧相關技術解決問題。如果這篇文章對您有幫助,請在 Medium 上按一下鼓勵,並追蹤我的個人帳號,這樣您就可以隨時閱讀我所撰寫的文章。歡迎在我的 Linkedin 上留言提供意見,並與我一起討論有關人工智慧的主題,期待能夠對大家有所幫助!

My Personal Website: https://simonliuyuwei-4ndgcf4.gamma.site/

--

--

Simon Liu

Hi, I'm Simon Liu, AI and LLM engineer who's shaped AI solutions for major firms. Welcome to see my Medium article!