谷歌發(fā)布FACTS Grounding基準,AI大語言模型“幻覺照妖鏡”
IT之家 12 月 18 日消息,谷歌 DeepMind 團隊于 12 月 17 日發(fā)布博文,宣布推出 FACTS Grounding 基準測試,評估大型語言模型(LLMs)根據(jù)給定材料是否準確作答,并避免“幻覺”(即捏造信息)的能力,從而提升 LLMs 的事實準確性,增強用戶信任度,并拓展其應用范圍。
數(shù)據(jù)集在數(shù)據(jù)集方面,ACTS Grounding 數(shù)據(jù)集包含 1719 個示例,涵蓋金融、科技、零售、醫(yī)療和法律等多個領域,每個示例包含一篇文檔、一條要求 LLM 基于文檔的系統(tǒng)指令和隨附的提示詞。
示例文檔長度不一,最長可達 32000 個 token(約 20000 字)。用戶請求涵蓋摘要、問答生成和改寫等任務,但不包含需要創(chuàng)造力、數(shù)學或復雜推理的任務。IT之家附上演示圖片如下:

數(shù)據(jù)集分為 860 個“公共”示例和 859 個“私有”示例,目前已發(fā)布公共數(shù)據(jù)集供評估使用,私有數(shù)據(jù)集用于排行榜評分,以防止基準污染和排行榜作弊。

在評估方案上,F(xiàn)ACTS Grounding 采用 Gemini 1.5 Pro、GPT4o 和 Claude 3.5 Sonnet 3 款模型作為評委,評估答案的充分性、事實準確性和文檔支持性。

評估分為兩個階段:首先評估響應是否符合資格,即是否充分回答了用戶請求;然后評估響應的事實準確性,即是否完全基于所提供的文檔,有沒有出現(xiàn)“幻覺”,然后基于該模型在所有示例上的平均得分,最終計算得出。
在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事實準確的文本生成方面取得了最高分。

IT之家附上參考地址
- 寶典保密柜售后服務電話號碼是多少10-30
- 容聲風幕柜售后維修電話是多少10-17
- 1格力變頻空調(diào)外機故障代碼(格力變頻空調(diào)外機故障代碼解析)
- 2東芝電視AV怎么切換(東芝電視AV切換中心)
- 3雙九保險柜售后服務中心(雙九保險柜服務中心)
- 4運磐鋒指紋鎖客服24小時熱線(運磐鋒指紋鎖:24小時客服熱線)
- 5FUJITSU空氣源熱泵官網(wǎng)售后(FUJITSU空氣源熱泵官網(wǎng)售后服務)
- 6四季沐歌電飯煲故障代碼e2(四季沐歌電飯煲故障代碼e2:解析與修復)
- 7VOC智能鎖售后服務中心(VOC智能鎖售后服務中心)
- 8跨馳指紋鎖400電話(跨馳指紋鎖400電話,安全保障專家)
- 9三菱重工空調(diào)故障代碼h(三菱重工空調(diào)故障代碼h解析)
- 10小米空調(diào)安裝收費價格表(如何避免被坑)
-
趣看 - 年度 “最接地氣”滿月 :全球多地共賞“草莓月亮”
2025-06-12
-
vivo X Fold5折疊屏手機三款配色官宣:青松、明白、鈦度
2025-06-12
-
人民幣對美元中間價報7.1803,調(diào)升12個基點
2025-06-12
-
格力5匹柜機故障代碼E1(格力5匹柜機故障代碼E1:錯誤排查及解決方法)
2025-06-07
-
上海百信燃氣灶維修(哪些故障需要專業(yè)維修?)
2025-06-07


