欧洲精品久久久av无码电影,日日噜噜夜夜爽爽,精品无码国产自产拍在线观看蜜,人妻少妇被粗大爽9797pw,羞国产在线拍揄自揄视频,国产白嫩漂亮美女在线观看,天码欧美日本一道免费,av大片在线无码免费

      歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務(wù)平臺

      24小時家電維修熱線:

      400—1558638

      當(dāng)前位置:主頁 > 空調(diào) > 維修資訊 > 常見故障 >

      《“巢燧”大模型基準(zhǔn)測試報告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強

      發(fā)布日期:2024-12-26 22:31:01 瀏覽:
      《“巢燧”大模型基準(zhǔn)測試報告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強

      12月25日,于成都舉行的“2024人工智能大模型基準(zhǔn)測試科創(chuàng)發(fā)展大會”上,《“巢燧”大模型基準(zhǔn)測試報告》(以下簡稱“報告”)正式發(fā)布。該報告由OpenEval平臺、天津大學(xué)自然語言處理實驗室和大模型基準(zhǔn)評測專家委員會聯(lián)合紅星新聞發(fā)布,聚焦知識能力和價值對齊兩大維度,對國內(nèi)研發(fā)的開源和閉源大語言模型進(jìn)行了系統(tǒng)的評測。

      今年以來,我國的人工智能大模型正以前所未有的速度發(fā)展,各類大模型百花齊放。據(jù)不完全統(tǒng)計,國產(chǎn)大模型的數(shù)量已超過200個,覆蓋多個行業(yè)領(lǐng)域,應(yīng)用場景不斷拓展。記者了解到,報告希望通過系統(tǒng)而全面的大模型評測,為AI發(fā)展和安全治理提供關(guān)鍵數(shù)據(jù),推動AI發(fā)展和應(yīng)用符合倫理原則和標(biāo)準(zhǔn),實現(xiàn)AI智善和諧發(fā)展。

      報告收錄了“巢燧”大模型基準(zhǔn)綜合評測第二次評測結(jié)果顯示,在過去一年里,中文大模型在學(xué)科知識以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強。閉源模型在學(xué)科知識、數(shù)學(xué)推理、語言理解及常識掌握等方面,相較開源模型展現(xiàn)出了更出色的性能。以下為“巢燧”大模型基準(zhǔn)綜合評測第二次評測結(jié)果:

      一、 評測維度

      此次評測聚焦于知識能力和價值對齊兩大維度、六則細(xì)項,多模態(tài)大模型多步推理,大模型中文高考數(shù)學(xué)復(fù)雜推理兩個專項評測,對大語言模型展開全面評測。

      1. 知識能力評測

      語言知識:通過評估大模型在自然語言理解、預(yù)測和生成方面的能力,揭示其對語言的全面理解和運用能力。其中使用的數(shù)據(jù)集有BiPaR、C3等,包含的具體任務(wù)有小說問答、閱讀理解、文本推理、詞性理解等。

      學(xué)科知識:采用人類標(biāo)準(zhǔn)化考試方式,對大模型進(jìn)行多學(xué)科知識水平的綜合評估,以確保其在各學(xué)科領(lǐng)域的廣泛知識基礎(chǔ)。學(xué)科知識按照學(xué)科類型有人文藝術(shù)、社會科學(xué)、自然科學(xué)等類型,按照學(xué)科段分為小學(xué)階段、初中階段、高中階段、大學(xué)階段等。

      常識知識:通過常識沖突檢測、推理和補充等方式,深入評估大模型在常識知識和推理能力方面的表現(xiàn),以確保其能夠有效運用廣泛的常識。常識知識包含了常識錯誤診斷、常識錯誤定位、常識錯誤抽取等。

      數(shù)學(xué)推理:以數(shù)學(xué)應(yīng)用題的形式進(jìn)行評測,重點考察大模型在基礎(chǔ)數(shù)學(xué)推理方面的能力,以保證其具備對復(fù)雜數(shù)學(xué)問題的解決潛力。數(shù)學(xué)推理包含了方程、分?jǐn)?shù)、集合、四則運算、概率統(tǒng)計等內(nèi)容。

      2. 價值對齊評測

      倫理對齊:通過評估大模型在偏見、歧視、有毒內(nèi)容等方面的價值對齊能力,確保其生成的內(nèi)容符合道德和倫理準(zhǔn)則,避免不當(dāng)?shù)钠姾推缫暋0姟⒚胺浮⑵缫暋⑴K話等內(nèi)容。

      安全可控:評估大模型在合作意愿、可糾正性等方面的安全可控能力,以確保在使用過程中能夠及時識別并糾正不安全或不適當(dāng)?shù)男袨椋U嫌脩舻陌踩碗[私。評測包含了系統(tǒng)的可糾正性、富有遠(yuǎn)見、理性決策等方面。

      3. 多模態(tài)大模型多步推理專項評測

      本專項評測涵蓋了8款開源多模態(tài)大模型和5款閉源多模態(tài)大模型,使用多步推理數(shù)據(jù)集進(jìn)行評測。該數(shù)據(jù)集分為8個子集,即多模態(tài)推理、邏輯推理任務(wù)、圖表分析推理、數(shù)學(xué)問題推理、科學(xué)問題推理、文件理解推理、?頁瀏覽型推理、閱讀理解推理。測試數(shù)據(jù)集最?的特點在于:每?個測試樣例都由較長的?系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù),該數(shù)據(jù)集測試樣例又可分為三個難度級別:Level 1(36步推理)、Level 2(711步推理)、Level 3(12步以上推理)。

      4. 大模型中文高考數(shù)學(xué)復(fù)雜推理專項評測

      本專項評測涵蓋了1款閉源復(fù)雜推理大模型OpenAI o1mini和2款開源復(fù)雜推理大模型QwenQWQ32B、Skyworko1OpenLlama3.18B,使用多類別數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行評測。該數(shù)據(jù)集分為8個子集:基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計數(shù)原理推理、統(tǒng)計與概率推理、其他數(shù)學(xué)推理(涵蓋邏輯、集合、不等式、復(fù)數(shù))。

      測試數(shù)據(jù)集最?的特點在于,所有數(shù)據(jù)均來源于最新的2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測試卷以及模擬試卷,減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集內(nèi)容豐富,共包含4399題,難度等級劃分為7級,所有測試樣例難度等級均進(jìn)行了人工標(biāo)注,一些難度較大的題目答案解析超過2000字符。本次評測另采用了2款開源大模型QwenMath2.572BInstruct和MetaLlama38BInstruct作為Baseline與復(fù)雜推理大模型的評測結(jié)果進(jìn)行比較。

      二、 國內(nèi)大模型知識能力和價值對齊總體表現(xiàn)

      基于“巢燧”基準(zhǔn)評測綜合測試結(jié)果,多個國內(nèi)大模型,如文心一言、千問、豆包、yi、商湯商量中文能力超過GPT4。百川、abab6.5s、星火、混元、Kimi、GLM4等,中文能力超過GPT3.5Turbo。以上評測結(jié)果表明,國內(nèi)大模型在過去一年中取得了關(guān)鍵進(jìn)展。

      三、 知識能力和價值對齊評測結(jié)果

      1. 開源模型評測結(jié)果

      2. 閉源模型評測結(jié)果

      3. 6個維度評測結(jié)果

      四、 多模態(tài)大模型多步推理專項評測

      1. 開源多模態(tài)大模型評測結(jié)果概覽:

      如性能雷達(dá)圖所示,開源多模態(tài)大模型呈現(xiàn)出以下特點:

      (1) 閱讀理解推理和文件理解推理是開源多模態(tài)大模型區(qū)分度較大的維度;

      (2)開源大模型在不同維度的表現(xiàn)展示出相似的特點,例如在閱讀理解推理的表現(xiàn)均好于數(shù)學(xué)問題推理或圖表分析推理等。

      如圖所示,開源多模態(tài)大模型的性能隨著問題難度增加而下降。

      2. 閉源大模型評測結(jié)果概述

      基于性能雷達(dá)圖,閉源多模態(tài)大模型呈現(xiàn)出以下特點:

      (1)閉源多模態(tài)大模型在不同維度的表現(xiàn)展示出相似的特點,例如在閱讀理解推理和文件理解推理表現(xiàn)較好,在多模態(tài)推理和數(shù)學(xué)問題推理表現(xiàn)較差等;

      (2)閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理和圖表分析推理的差異較大。

      如圖所示,閉源多模態(tài)大模型的性能隨著問題難度增加而下降。

      3. 總結(jié)

      對比開源多模態(tài)大模型與閉源多模態(tài)大模型,我們發(fā)現(xiàn):

      (1)開源多模態(tài)大模型在多模態(tài)推理和科學(xué)問題推理兩個維度展現(xiàn)出了顯著的優(yōu)勢,尤其是在多模態(tài)推理上,多個開源大模型已經(jīng)達(dá)到或超過GPT4o;

      (2)相比于開源多模態(tài)大模型,閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理、文件理解推理和圖表分析推理等維度普遍表現(xiàn)更優(yōu)秀;而在數(shù)學(xué)問題推理和多模態(tài)推理兩個維度上,閉源多模態(tài)大模型與開源多模態(tài)大模型的差異并不明顯。

      (3)開源多模態(tài)大模型與閉源多模態(tài)大模型的性能均隨著問題難度增加而下降,問題難度越低,不同模型間的差異越明顯。

      綜上所述,目前多模態(tài)大模型在數(shù)學(xué)問題推理和多模態(tài)推理等維度還有待關(guān)注和重視,同時,多模態(tài)大模型在推理步驟較長的任務(wù)中表現(xiàn)較差,這表明未來大模型的發(fā)展仍然需要重視多步推理的能力提升。

      五、 大模型中文高考數(shù)學(xué)復(fù)雜推理專項評測

      如性能雷達(dá)圖所示,復(fù)雜推理模型在中文高考數(shù)學(xué)推理中呈現(xiàn)出以下特點:

      (1) 在同等參數(shù)規(guī)模下,Skyworko1OpenLlama3.18B相比同系列基座模型MetaLlama38BInstruct大幅提升了模型的數(shù)學(xué)推理能力;

      (2)小型復(fù)雜推理模型在高考數(shù)學(xué)推理上的能力達(dá)到近似大型模型的水平。Skyworko1OpenLlama3.18B與32B Qwen QWQ模型和經(jīng)過數(shù)學(xué)方面微調(diào)和強化學(xué)習(xí)的72B Qwen模型相比,其準(zhǔn)確率在各評測維度上達(dá)到了近似水平;

      (3) 閉源復(fù)雜推理模型OpenAI o1mini在中文高考數(shù)學(xué)推理中的綜合準(zhǔn)確率稍稍領(lǐng)先,在五個評測維度上優(yōu)于其它模型,在兩個評測維度上落后于其他模型。

      如圖所示,復(fù)雜推理大模型的性能隨著問題難度增加呈現(xiàn)明顯下降趨勢,閉源復(fù)雜推理大模型OpenAI o1mini在處理較難問題上具有明顯優(yōu)勢。

      綜上所述,小型復(fù)雜推理模型在高考數(shù)學(xué)推理能力上顯示出了顯著的進(jìn)步,但大型基座模型仍然有利于復(fù)雜推理能力的提升。對于難度為4及以上的題目,所有模型都表現(xiàn)欠佳,這表明未來大模型在復(fù)雜推理能力上仍然具有很大提升空間。

      六、 總結(jié)

      在過去一年里,中文大型模型在學(xué)科知識以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強。閉源模型在學(xué)科知識、數(shù)學(xué)推理、語言理解及常識掌握等方面,相較于開源模型展現(xiàn)出了更出色的性能。盡管閉源模型在部分知識維度上領(lǐng)先,但在倫理對齊和安全可控方面,相較于開源模型的優(yōu)勢并不突出。這一現(xiàn)象提醒我們,在追求模型性能提高的同時,不能忽視倫理和安全性問題。

      在致力于提升大型模型知識能力的同時,還需更加重視價值對齊的問題。隨著模型能力的不斷提升,這一問題的重要性愈加凸顯。我們應(yīng)當(dāng)拓展對大型模型的評估研究范圍,不應(yīng)僅限于學(xué)科知識等單一維度,而應(yīng)構(gòu)建更全面、多樣化的評估標(biāo)準(zhǔn)和體系,以促進(jìn)大型模型的智善協(xié)同發(fā)展。

      紅星新聞記者 俞瑤 實習(xí)記者 符小茵

      編輯 鄧凌瑤

      (下載紅星新聞,報料有獎!)

      主站蜘蛛池模板: h视频在线观看网站| 久久久久国产精品人妻aⅴ牛牛| 欧美成人精品欧美一级| 国产无毛片| 人妻熟女一区二区aⅴ图片| 五月天中文字幕| 爱情岛论坛永久入址测速| 国产精品成人久久电影| 少妇挑战三个黑人惨叫4p国语| 天干夜夜爽爽日日日日| 中国性老太hd大全69| 国产美女极度色诱视频www| 精品国偷自产在线电影| 琪琪色在线视频| 99re6热在线精品视频播放| 国产香港明星裸体xxxx视频| 亚洲热无码av一区二区东京热av| 亚洲第一综合网| 91国内精品视频| 日日麻批免费40分钟无码| 自拍偷在线精品自拍偷| 久草福利在线观看| 一级少妇女片| 激情综合激情五月俺也去| 精品无码欧美黑人又粗又| 爆操老女人| 小明天天看| 天天躁夜夜踩很很踩2022| 亚洲人av在线无码影院观看| 涩婷婷| 日韩在线观看不卡| 亚洲乱码一二三四区| 国产国拍精品av在线观看按摩 | 性免费视频| 久久综合色鬼| 久久中文精品无码中文字幕下载| 国产精品白浆无码流出视频| 好爽…又高潮了毛片免费看| 日韩精品视频免费看| 精品无码av一区二区三区不卡| 欧美专区另类专区在线视频|