《“巢燧”大模型基準(zhǔn)測試報告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強
12月25日,于成都舉行的“2024人工智能大模型基準(zhǔn)測試科創(chuàng)發(fā)展大會”上,《“巢燧”大模型基準(zhǔn)測試報告》(以下簡稱“報告”)正式發(fā)布。該報告由OpenEval平臺、天津大學(xué)自然語言處理實驗室和大模型基準(zhǔn)評測專家委員會聯(lián)合紅星新聞發(fā)布,聚焦知識能力和價值對齊兩大維度,對國內(nèi)研發(fā)的開源和閉源大語言模型進(jìn)行了系統(tǒng)的評測。
今年以來,我國的人工智能大模型正以前所未有的速度發(fā)展,各類大模型百花齊放。據(jù)不完全統(tǒng)計,國產(chǎn)大模型的數(shù)量已超過200個,覆蓋多個行業(yè)領(lǐng)域,應(yīng)用場景不斷拓展。記者了解到,報告希望通過系統(tǒng)而全面的大模型評測,為AI發(fā)展和安全治理提供關(guān)鍵數(shù)據(jù),推動AI發(fā)展和應(yīng)用符合倫理原則和標(biāo)準(zhǔn),實現(xiàn)AI智善和諧發(fā)展。
報告收錄了“巢燧”大模型基準(zhǔn)綜合評測第二次評測結(jié)果顯示,在過去一年里,中文大模型在學(xué)科知識以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強。閉源模型在學(xué)科知識、數(shù)學(xué)推理、語言理解及常識掌握等方面,相較開源模型展現(xiàn)出了更出色的性能。以下為“巢燧”大模型基準(zhǔn)綜合評測第二次評測結(jié)果:
一、 評測維度
此次評測聚焦于知識能力和價值對齊兩大維度、六則細(xì)項,多模態(tài)大模型多步推理,大模型中文高考數(shù)學(xué)復(fù)雜推理兩個專項評測,對大語言模型展開全面評測。
1. 知識能力評測
語言知識:通過評估大模型在自然語言理解、預(yù)測和生成方面的能力,揭示其對語言的全面理解和運用能力。其中使用的數(shù)據(jù)集有BiPaR、C3等,包含的具體任務(wù)有小說問答、閱讀理解、文本推理、詞性理解等。
學(xué)科知識:采用人類標(biāo)準(zhǔn)化考試方式,對大模型進(jìn)行多學(xué)科知識水平的綜合評估,以確保其在各學(xué)科領(lǐng)域的廣泛知識基礎(chǔ)。學(xué)科知識按照學(xué)科類型有人文藝術(shù)、社會科學(xué)、自然科學(xué)等類型,按照學(xué)科段分為小學(xué)階段、初中階段、高中階段、大學(xué)階段等。
常識知識:通過常識沖突檢測、推理和補充等方式,深入評估大模型在常識知識和推理能力方面的表現(xiàn),以確保其能夠有效運用廣泛的常識。常識知識包含了常識錯誤診斷、常識錯誤定位、常識錯誤抽取等。
數(shù)學(xué)推理:以數(shù)學(xué)應(yīng)用題的形式進(jìn)行評測,重點考察大模型在基礎(chǔ)數(shù)學(xué)推理方面的能力,以保證其具備對復(fù)雜數(shù)學(xué)問題的解決潛力。數(shù)學(xué)推理包含了方程、分?jǐn)?shù)、集合、四則運算、概率統(tǒng)計等內(nèi)容。
2. 價值對齊評測
倫理對齊:通過評估大模型在偏見、歧視、有毒內(nèi)容等方面的價值對齊能力,確保其生成的內(nèi)容符合道德和倫理準(zhǔn)則,避免不當(dāng)?shù)钠姾推缫暋0姟⒚胺浮⑵缫暋⑴K話等內(nèi)容。
安全可控:評估大模型在合作意愿、可糾正性等方面的安全可控能力,以確保在使用過程中能夠及時識別并糾正不安全或不適當(dāng)?shù)男袨椋U嫌脩舻陌踩碗[私。評測包含了系統(tǒng)的可糾正性、富有遠(yuǎn)見、理性決策等方面。
3. 多模態(tài)大模型多步推理專項評測
本專項評測涵蓋了8款開源多模態(tài)大模型和5款閉源多模態(tài)大模型,使用多步推理數(shù)據(jù)集進(jìn)行評測。該數(shù)據(jù)集分為8個子集,即多模態(tài)推理、邏輯推理任務(wù)、圖表分析推理、數(shù)學(xué)問題推理、科學(xué)問題推理、文件理解推理、?頁瀏覽型推理、閱讀理解推理。測試數(shù)據(jù)集最?的特點在于:每?個測試樣例都由較長的?系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù),該數(shù)據(jù)集測試樣例又可分為三個難度級別:Level 1(36步推理)、Level 2(711步推理)、Level 3(12步以上推理)。
4. 大模型中文高考數(shù)學(xué)復(fù)雜推理專項評測
本專項評測涵蓋了1款閉源復(fù)雜推理大模型OpenAI o1mini和2款開源復(fù)雜推理大模型QwenQWQ32B、Skyworko1OpenLlama3.18B,使用多類別數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行評測。該數(shù)據(jù)集分為8個子集:基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計數(shù)原理推理、統(tǒng)計與概率推理、其他數(shù)學(xué)推理(涵蓋邏輯、集合、不等式、復(fù)數(shù))。
測試數(shù)據(jù)集最?的特點在于,所有數(shù)據(jù)均來源于最新的2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測試卷以及模擬試卷,減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集內(nèi)容豐富,共包含4399題,難度等級劃分為7級,所有測試樣例難度等級均進(jìn)行了人工標(biāo)注,一些難度較大的題目答案解析超過2000字符。本次評測另采用了2款開源大模型QwenMath2.572BInstruct和MetaLlama38BInstruct作為Baseline與復(fù)雜推理大模型的評測結(jié)果進(jìn)行比較。
二、 國內(nèi)大模型知識能力和價值對齊總體表現(xiàn)

基于“巢燧”基準(zhǔn)評測綜合測試結(jié)果,多個國內(nèi)大模型,如文心一言、千問、豆包、yi、商湯商量中文能力超過GPT4。百川、abab6.5s、星火、混元、Kimi、GLM4等,中文能力超過GPT3.5Turbo。以上評測結(jié)果表明,國內(nèi)大模型在過去一年中取得了關(guān)鍵進(jìn)展。
三、 知識能力和價值對齊評測結(jié)果
1. 開源模型評測結(jié)果

2. 閉源模型評測結(jié)果

3. 6個維度評測結(jié)果






四、 多模態(tài)大模型多步推理專項評測
1. 開源多模態(tài)大模型評測結(jié)果概覽:

如性能雷達(dá)圖所示,開源多模態(tài)大模型呈現(xiàn)出以下特點:
(1) 閱讀理解推理和文件理解推理是開源多模態(tài)大模型區(qū)分度較大的維度;
(2)開源大模型在不同維度的表現(xiàn)展示出相似的特點,例如在閱讀理解推理的表現(xiàn)均好于數(shù)學(xué)問題推理或圖表分析推理等。

如圖所示,開源多模態(tài)大模型的性能隨著問題難度增加而下降。
2. 閉源大模型評測結(jié)果概述

基于性能雷達(dá)圖,閉源多模態(tài)大模型呈現(xiàn)出以下特點:
(1)閉源多模態(tài)大模型在不同維度的表現(xiàn)展示出相似的特點,例如在閱讀理解推理和文件理解推理表現(xiàn)較好,在多模態(tài)推理和數(shù)學(xué)問題推理表現(xiàn)較差等;
(2)閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理和圖表分析推理的差異較大。

如圖所示,閉源多模態(tài)大模型的性能隨著問題難度增加而下降。
3. 總結(jié)

對比開源多模態(tài)大模型與閉源多模態(tài)大模型,我們發(fā)現(xiàn):
(1)開源多模態(tài)大模型在多模態(tài)推理和科學(xué)問題推理兩個維度展現(xiàn)出了顯著的優(yōu)勢,尤其是在多模態(tài)推理上,多個開源大模型已經(jīng)達(dá)到或超過GPT4o;
(2)相比于開源多模態(tài)大模型,閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理、文件理解推理和圖表分析推理等維度普遍表現(xiàn)更優(yōu)秀;而在數(shù)學(xué)問題推理和多模態(tài)推理兩個維度上,閉源多模態(tài)大模型與開源多模態(tài)大模型的差異并不明顯。

(3)開源多模態(tài)大模型與閉源多模態(tài)大模型的性能均隨著問題難度增加而下降,問題難度越低,不同模型間的差異越明顯。
綜上所述,目前多模態(tài)大模型在數(shù)學(xué)問題推理和多模態(tài)推理等維度還有待關(guān)注和重視,同時,多模態(tài)大模型在推理步驟較長的任務(wù)中表現(xiàn)較差,這表明未來大模型的發(fā)展仍然需要重視多步推理的能力提升。
五、 大模型中文高考數(shù)學(xué)復(fù)雜推理專項評測

如性能雷達(dá)圖所示,復(fù)雜推理模型在中文高考數(shù)學(xué)推理中呈現(xiàn)出以下特點:
(1) 在同等參數(shù)規(guī)模下,Skyworko1OpenLlama3.18B相比同系列基座模型MetaLlama38BInstruct大幅提升了模型的數(shù)學(xué)推理能力;
(2)小型復(fù)雜推理模型在高考數(shù)學(xué)推理上的能力達(dá)到近似大型模型的水平。Skyworko1OpenLlama3.18B與32B Qwen QWQ模型和經(jīng)過數(shù)學(xué)方面微調(diào)和強化學(xué)習(xí)的72B Qwen模型相比,其準(zhǔn)確率在各評測維度上達(dá)到了近似水平;
(3) 閉源復(fù)雜推理模型OpenAI o1mini在中文高考數(shù)學(xué)推理中的綜合準(zhǔn)確率稍稍領(lǐng)先,在五個評測維度上優(yōu)于其它模型,在兩個評測維度上落后于其他模型。

如圖所示,復(fù)雜推理大模型的性能隨著問題難度增加呈現(xiàn)明顯下降趨勢,閉源復(fù)雜推理大模型OpenAI o1mini在處理較難問題上具有明顯優(yōu)勢。
綜上所述,小型復(fù)雜推理模型在高考數(shù)學(xué)推理能力上顯示出了顯著的進(jìn)步,但大型基座模型仍然有利于復(fù)雜推理能力的提升。對于難度為4及以上的題目,所有模型都表現(xiàn)欠佳,這表明未來大模型在復(fù)雜推理能力上仍然具有很大提升空間。
六、 總結(jié)
在過去一年里,中文大型模型在學(xué)科知識以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強。閉源模型在學(xué)科知識、數(shù)學(xué)推理、語言理解及常識掌握等方面,相較于開源模型展現(xiàn)出了更出色的性能。盡管閉源模型在部分知識維度上領(lǐng)先,但在倫理對齊和安全可控方面,相較于開源模型的優(yōu)勢并不突出。這一現(xiàn)象提醒我們,在追求模型性能提高的同時,不能忽視倫理和安全性問題。
在致力于提升大型模型知識能力的同時,還需更加重視價值對齊的問題。隨著模型能力的不斷提升,這一問題的重要性愈加凸顯。我們應(yīng)當(dāng)拓展對大型模型的評估研究范圍,不應(yīng)僅限于學(xué)科知識等單一維度,而應(yīng)構(gòu)建更全面、多樣化的評估標(biāo)準(zhǔn)和體系,以促進(jìn)大型模型的智善協(xié)同發(fā)展。
紅星新聞記者 俞瑤 實習(xí)記者 符小茵
編輯 鄧凌瑤
(下載紅星新聞,報料有獎!)
- 冰箱壓縮機86AA(如何判斷是否故障)04-23
- 1Fardior燃?xì)庠钍酆缶S修電話號碼查詢(Fardior燃?xì)庠钍酆缶S修電話查詢)
- 2ENS指紋鎖售后熱線(ENS指紋鎖售后熱線-專業(yè)解決您的問題)
- 3開利多聯(lián)機E1故章代碼(開利多聯(lián)機E1故障排查與維修指南)
- 4柯豐防盜門售后服務(wù)熱線(柯豐防盜門售后服務(wù)熱線全方位解決您的問題)
- 5格力3p天花機故障代碼(解讀格力3P天花機故障代碼)
- 6冰箱太干燥(該怎么辦?)
- 7廈門松下空調(diào)24小時服務(wù)電話(如何快速聯(lián)系客服解決問題)
- 8西安威能壁掛爐官方售后(如何快速聯(lián)系客服)
- 9青島城陽三星洗衣機官網(wǎng)售后(如何聯(lián)系客服并獲得專業(yè)幫助)
- 10春韶指紋鎖售后維修(春韶指紋鎖維修中心)
-
怎么拆彩電顯像管管座(拆解彩電顯像管管座技巧——30字以內(nèi))
2025-06-07
-
壁掛爐一天多少方氣(壁掛爐每天消耗幾方氣能?)
2025-06-07
-
烤肉串的燃?xì)庠罹S修(如何自行維修故障)。
2025-06-07
-
三菱重工故障代碼e5(解析三菱重工故障代碼E5)
2025-06-07
-
美的定頻故障代碼e5(美的定頻故障代碼E5:解讀與解決方案)
2025-06-07


