欧洲精品久久久av无码电影,日日噜噜夜夜爽爽,精品无码国产自产拍在线观看蜜,人妻少妇被粗大爽9797pw,羞国产在线拍揄自揄视频,国产白嫩漂亮美女在线观看,天码欧美日本一道免费,av大片在线无码免费

      歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務平臺

      24小時家電維修熱線:

      400—1558638

      當前位置:主頁 > 熱水器 > 維修資訊 >

      打破美國AI公司霸榜,上交AI數學開源模型阿貝爾排行榜首

      發布日期:2023-09-21 20:01:36 瀏覽:
      打破美國AI公司霸榜,上交AI數學開源模型阿貝爾排行榜首

      機器之心報道

      機器之心編輯部

      以 ChatGPT 為代表的大模型產品引領了一場新的產業革命,激發了國內外各機構積極投入相關技術研究的熱情。在過去幾個月的技術競爭中,國產大模型在文本理解和知識理解任務方面表現出色,堪稱一位優秀的 “文科生”。

      然而,在復雜數學推理計算、物理建模、科學發現等 “理科” 領域,大模型的研究尚未達到令人滿意的水平,與美國頂尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在數學推理方面的權威評測集 GSM8K 和 MATH 上,美國 AI 公司一直占據前幾名,突顯了其領先地位。

      在這樣的背景下,上海交大生成式人工智能研究組 (GAIR) 積極攻克難關,研發并開源了數學計算大模型 “阿貝爾(Abel)”,在多個榜單上取得開源第一!是首個海內外高校團隊推出的 SOTA 數學開源大模型。

      • 項目主頁:https://GAIRNLP.github.io/abel
      • 開源模型:https://github.com/GAIRNLP/abel

      “在還未回國前,我和 Meta 非常優秀的科學家合作了一篇叫做 LIMA 的工作,在那篇工作里我們僅使用 1000 個樣本就可以訓練模型使其在達到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務場景上都得到了驗證,比如數學推理。這也成為當時的遺憾,使得我對如何讓大模型學好數學充滿了興趣。”上海交大生成式人工智能研究組負責人同時也是阿貝爾項目的負責人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數學家 尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數和分析方面的開創性工作而創建的,代數也是現在模型相對擅長解決的,不過,我們還有很長的路要走。”

      模型表現

      表 1: 代表專有模型,而 表示開源模型, 表示模型開發由學術大學主導(而不是由公司主導);這里僅考慮不使用任何工具(例如 Python)的模型;GAIRMathAbel 為該團隊提出的模型

      在阿貝爾(GAIRMathAbel)這個項目里,作者展示了,盡管

      • 沒有使用工具
      • 沒有使用數學領域的大規模預訓練數據
      • 沒有使用獎勵模型
      • 沒有使用基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)
      • 僅使用有監督精調(Supervised Finetuning,SFT)

      阿貝爾在 GSM8k(83.62)和 MATH(28.26)權威評測集上實現了開源數學模型(不使用外部工具)的最好成績,具體說來:

      • 在 GSM8K 上的性能達到了 83.62,超過了許多國外大廠優秀的模型,如 PaLM1、Minerva(Google)、Claudeinstant(Anthropic)以及 ChatGPT(OpenAI),僅落后于 Google 的最新模型 PaLM2Flan1 個百分點;同時也顯著高于所有開源國產模型
      • 在具有高難度的數學競賽問題上,阿貝爾準確率達到了 28.26%(相比于 GPT4 的 42.5%),它在其他開源模型中保持了顯著領先地位,超過了之前最佳的開源模型 5 個多百分點
      • 7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優勢取得了開源模型性能的最佳
      • 阿貝爾在排行榜前十名中占據了 3 個位置,并且是唯一一家由大學領導的項目(其他都是明星創業公司或大型科技公司)
      • 使用作者的方法,不僅在 GSM8K 和 MATH 上取得了出色的成績,而且在提供新數據集(TALSCQEN)時,迅速達到了最好性能(SOTA),并且輕松超越了商業模型 MathGPT 和 GPT4。

      除了優秀的性能本身,該項目也揭示了:

      • 有監督精調的能力被嚴重低估,研究人員應該以應有的敬畏和謹慎來對待這個過程。
      • 出色的數學問題解決能力可以通過有監督精調實現的很好,這將在未來對這個方向的探索中引發更多富有想象力的可能性

      訓練方法

      為了訓練阿貝爾,該團隊提出Parental Oversight (家長監督),一種監督微調的保姆策略(Babysitting Strategy)。

      Parental Oversight 的核心理念在于,在對大模型進行微調的過程中應該懷著一種敬畏和謹慎的態度,就如同家長在對孩子進行教育時,必須要用最淺顯易懂并謹慎的方式進行教導,在穩健成長的同時避免揠苗助長。各種不同的數據和數據的呈現方式 代表的是不同的教育方式,而研究者必須謹慎小心的選擇最好的方式教導大模型。

      事實上,在 GAI 的背景下,數據結構工程 (Data Structure Engineering) 已經成為一種新的范式。有效的處理數據的方向對大模型在不同下游任務上的成功與否有著極為關鍵性的影響。從 Parental Oversight 理念出發,在復雜推理任務上取得好的結果,最關鍵的是要精心策劃訓練數據,而不是不加選擇地使用任何樣本進行監督學習。

      通過最精確謹慎的監督,協助大模型在復雜推理的下游任務上成長。在有監督精調的訓練樣本中,不僅應包含正確的答案,還應告訴模型如何從預訓練模型的知識中獲得正確答案。此外,如果語言模型的知識不足以獲得真實答案,監護監督應該幫助模型迅速填補知識上的空白。

      局限性 & 規劃

      盡管阿貝爾數學模型在評估的幾個數據集上表現優異,但是開發者也總結了它的不足之處:

      • 過擬合:盡管進行了魯棒性分析,并考慮到數學生成型 AI 天生具有脆弱性(通常需要高級解碼策略,如多數投票),但過于依賴構建 SFT 樣本以提高性能可能會不可避免地導致模型出現過擬合現象。(然而,過擬合并不是當前項目的主要關注點,因為即使對過擬合各種增強訓練數據,對于復雜的數學推理任務,如 MATH 數據集,仍然很難實現有利的測試結果。)盡管如此,團隊仍然需要進行更廣泛的健壯性分析,并積極探索可以將模型轉化為數學通才的訓練方法,并進行更全面的跨領域泛化分析。
      • 泛化性:一個好的數學模型不應僅限于解決 GSM8K 和 MATH 數據集上的問題;它應該能夠處理各種類型的問題,包括評估不同知識領域并需要不同類型的回答的問題(例如,多項選擇、真假、證明、算術等)。當前模型的能力不足以泛化到這些多樣的場景。
      • 通用性:最終,作者預計大型模型賦予的數學推理能力可以整合到各個領域的聊天機器人中,如醫學、法律、物理學、化學等。實現 AGI 的關鍵在于將強大的數學模型的力量融入其他模型中,而這在當前項目中尚未探索。
      • 多語言性:當前模型的訓練數據和基本模型限制了它在除英語以外的語言中提供回應的能力。
      • 高級技術:當前模型主要關注有監督精調(SFT),尚未探索獎勵模型、RLHF(從人類反饋中進行強化學習)和工具調用等高級技術。

      開發者表示已經列出了一系列問題,并用 Github 維護這些限制和潛在解決方案。歡迎大家提出建設性意見和見解。

      下一步計劃

      最后,作者也簡單用一張圖透露了實驗室的下一步計劃:從 “阿貝爾” 到 “伯努利”。

      主站蜘蛛池模板: 国产超碰人人爽人人做人人添| 日韩五月天| 国产尤物精品| 18黄暴禁片在线观看| 国产伦人人人人人人性| 久久蜜桃视频| 成人亚洲区| 久久99精品久久久大学生| 久久99av无色码人妻蜜| jjzz黄色片| 无码国产69精品久久久孕妇| 一群黑人大战亚裔女在线播放| 免费成人在线看| 欧美日韩卡一卡二| 少妇被躁爽到高潮无码久久| 亚洲a在线观看无码| 免费av一区二区三区| 成人午夜在线观看视频| 国产精品毛片一区二区| 欧美成人精品午夜免费影视| 国产区在线视频| 狠狠插影院| 久久人人爽人人爽人人片ⅴ| 免费国产h视频在线观看| 99只有精品| 精品一区中文字幕| 激情综合激情五月俺也去| 极品少妇的粉嫩小泬看片| 亚洲精品国偷拍自产在线观看蜜桃| 国产精品波多野结衣| 日韩免费高清大片在线| 无码区日韩特区永久免费系列 | 国内精品久久久久久不卡影院| 午夜精品一区二区三区在线视频| 一本久道久久综合| 成人午夜大片免费看爽爽爽| 先锋影音av最新资源网| 久99久热这里只有精品| 麻豆果冻传媒2021精品传媒一区 | 色偷偷一区二区无码视频| 欧美自拍亚洲综合在线|