首頁(yè)
黨政
要聞
觀點(diǎn)
互動(dòng)
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陜
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網(wǎng)站
舉報(bào)專區(qū)
登錄

退出

人民網(wǎng)+
中國(guó)共產(chǎn)黨新聞網(wǎng)
領(lǐng)導(dǎo)留言板
強(qiáng)國(guó)論壇
人民視頻

人民日?qǐng)?bào)報(bào)系

人民日?qǐng)?bào) 人民日?qǐng)?bào)海外版中國(guó)汽車報(bào) 中國(guó)能源報(bào) 健康時(shí)報(bào) 證券時(shí)報(bào) 國(guó)際金融報(bào)網(wǎng) 諷刺與幽默中國(guó)城市報(bào) 新聞戰(zhàn)線人民論壇環(huán)球人物中國(guó)經(jīng)濟(jì)周刊民生周刊國(guó)家人文歷史人民周刊人民數(shù)字

旗下網(wǎng)站

國(guó)家重點(diǎn)實(shí)驗(yàn)室環(huán)球網(wǎng) 海外網(wǎng) 人民圖片人民視覺(jué) 人民網(wǎng)研究院

人民網(wǎng)>>上海頻道

趕超ChatGPT “書(shū)生·浦語(yǔ)”大語(yǔ)言模型發(fā)布

2023年06月07日15:46 | 來(lái)源：人民網(wǎng)－上海頻道

小字號(hào)

人民網(wǎng)上海6月7日電隨著AI大語(yǔ)言模型越來(lái)越多地表現(xiàn)出接近人類的智能，面向人類設(shè)計(jì)的高難度、綜合性考試被越來(lái)越多地引入對(duì)語(yǔ)言模型的智能水平進(jìn)行評(píng)測(cè)。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報(bào)告中就主要通過(guò)各領(lǐng)域的考試對(duì)模型能力進(jìn)行檢驗(yàn)。2023年高考開(kāi)考，中文大語(yǔ)言模型是否能夠在高考中趕超ChatGPT呢？

今天，上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語(yǔ)言模型“書(shū)生·浦語(yǔ)”（InternLM）。

據(jù)介紹，“書(shū)生·浦語(yǔ)”具有1040億參數(shù)，是在包含1.6萬(wàn)億token的多語(yǔ)種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

全面評(píng)測(cè)結(jié)果顯示，“書(shū)生·浦語(yǔ)”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語(yǔ)翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀，而且具備很強(qiáng)的綜合能力，因而在綜合性考試中表現(xiàn)突出，在多項(xiàng)中文考試中取得超越ChatGPT的成績(jī)，其中就包括中國(guó)高考各科目的數(shù)據(jù)集（GaoKao）。

目前，“書(shū)生·浦語(yǔ)”相關(guān)技術(shù)報(bào)告已在網(wǎng)上公開(kāi)，報(bào)告對(duì)模型的技術(shù)特點(diǎn)以及測(cè)試結(jié)果進(jìn)行了詳細(xì)闡述。

綜合“大考”：“書(shū)生·浦語(yǔ)”多項(xiàng)成績(jī)領(lǐng)先于 ChatGPT

“書(shū)生·浦語(yǔ)”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn)，其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集：由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集MMLU；微軟研究院推出的學(xué)科考試評(píng)測(cè)集AGIEval（含中國(guó)高考、司法考試及美國(guó)SAT、LSAT、GRE 和 GMAT等）；由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集C-Eval；以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集Gaokao。

實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書(shū)生·浦語(yǔ)”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進(jìn)行了全面測(cè)試，針對(duì)上述四個(gè)評(píng)測(cè)集的成績(jī)對(duì)比如下（滿分100分）。

可以看到，“書(shū)生·浦語(yǔ)”不僅顯著超越了 GLM-130B 和 LLaMA-65B 等學(xué)術(shù)開(kāi)源模型，還在AGIEval、C-Eval、以及 Gaokao 等多個(gè)綜合性考試中領(lǐng)先于 ChatGPT；在以美國(guó)考試為主的MMLU上實(shí)現(xiàn)和 ChatGPT 持平。這些綜合性考試的成績(jī)反映出“書(shū)生·浦語(yǔ)”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。

雖然 “書(shū)生·浦語(yǔ)”在考試評(píng)測(cè)上取得優(yōu)秀成績(jī)，但在測(cè)評(píng)中也可以看到，大語(yǔ)言模型仍然存在不少能力局限性?！皶?shū)生·浦語(yǔ)” 受限于2K的語(yǔ)境窗口長(zhǎng)度（GPT-4的語(yǔ)境窗口長(zhǎng)度為32K），在長(zhǎng)文理解、復(fù)雜推理、撰寫(xiě)代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外，在實(shí)際對(duì)話中，大語(yǔ)言模型還普遍存在幻覺(jué)、概念混淆等問(wèn)題；這些局限使得大語(yǔ)言模型在開(kāi)放場(chǎng)景中的使用還有很長(zhǎng)的路要走。

四個(gè)綜合性考試評(píng)測(cè)數(shù)據(jù)集結(jié)果

MMLU是由伯克利加州大學(xué)（UC Berkeley）聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和 UIUC 公共構(gòu)建的多任務(wù)考試評(píng)測(cè)集，涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國(guó)歷史、法律、經(jīng)濟(jì)、外交等多個(gè)學(xué)科。細(xì)分科目結(jié)果如下表所示（粗體表示最佳結(jié)果，下劃線表示第二）。

AGIEval是由微軟研究院在今年新提出的學(xué)科考試評(píng)測(cè)集，主要目標(biāo)是通過(guò)面向的考試來(lái)評(píng)估語(yǔ)言模型的能力，從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。這個(gè)評(píng)測(cè)集基于中國(guó)和美國(guó)各類考試構(gòu)建了19個(gè)評(píng)測(cè)大項(xiàng)，包括了中國(guó)各科高考、司法考試以及美國(guó)的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是，在這19個(gè)大項(xiàng)有9個(gè)大項(xiàng)是中國(guó)高考，通常也列為一個(gè)重要的評(píng)測(cè)子集 AGIEval (GK)。下列表格中，帶GK的是中國(guó)高考科目。

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集。它包含了52個(gè)科目的近14000道考題，涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試，以及面向公務(wù)員、注冊(cè)會(huì)計(jì)師、律師、醫(yī)生的職業(yè)考試。測(cè)試結(jié)果可以通過(guò)leaderboard獲得。

（https://cevalbenchmark.com/static/leaderboard.html）

Gaokao是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國(guó)高考題目的綜合性考試評(píng)測(cè)集，包含了中國(guó)高考的各個(gè)科目，以及選擇、填空、問(wèn)答等多種題型。在GaoKao測(cè)評(píng)中，“書(shū)生·浦語(yǔ)”在超過(guò)75%的項(xiàng)目中均領(lǐng)先ChatGPT。

分項(xiàng)評(píng)測(cè)：閱讀理解、推理能力表現(xiàn)出色

為了避免“偏科”，研究人員還通過(guò)多個(gè)學(xué)術(shù)評(píng)測(cè)集，對(duì)“書(shū)生·浦語(yǔ)”等語(yǔ)言模型的分項(xiàng)能力進(jìn)行了評(píng)測(cè)對(duì)比。結(jié)果顯示，“書(shū)生·浦語(yǔ)”不僅在中英文的閱讀理解方面表現(xiàn)突出，并且在數(shù)學(xué)推理、編程能力等評(píng)測(cè)中也取得了較好的成績(jī)。

在知識(shí)問(wèn)答方面，“書(shū)生·浦語(yǔ)”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評(píng)測(cè)上得分為69.8和27.6，均超越 LLaMA-65B（得分為68.2和23.8）。

在閱讀理解（英語(yǔ)）方面，“書(shū)生·浦語(yǔ)”明顯領(lǐng)先于 LLaMA-65B 和 ChatGPT。浦語(yǔ)在初中和高中英語(yǔ)閱讀理解中得分為 92.7 和 88.9，? ChatGPT 得分為 85.6 和 81.2，LLaMA-65B則更低。

在中文理解方面，“書(shū)生·浦語(yǔ)”的成績(jī)?nèi)娉街饕膬蓚€(gè)中文語(yǔ)言模型 ERNIE-260B 和 GLM-130B。

在多語(yǔ)翻譯方面，“書(shū)生·浦語(yǔ)”在多語(yǔ)種互譯中的平均得分為33.9，顯著超越LLaMA(平均得分15.1)。

在數(shù)學(xué)推理方面，“書(shū)生·浦語(yǔ)”在GSM8K 和 MATH 這兩項(xiàng)被廣泛用于評(píng)測(cè)的數(shù)學(xué)考試中，分別取得 62.9 和 14.9 的得分，明顯領(lǐng)先于 Google 的 PaLM-540B（得分為 56.5 和 8.8）與 LLaMA-65B （得分為 50.9 和 10.9）。

在編程能力方面，“書(shū)生·浦語(yǔ)”在HumanEval 和 MBPP 這兩項(xiàng)最具代表性的考評(píng)中，分別取得 28.1 和 41.4 的得分(其中經(jīng)過(guò)在代碼領(lǐng)域的微調(diào)后，在HumanEval上的得分可以提升至45.7)，明顯領(lǐng)先于 PaLM-540B（得分為 26.2 和 36.8）與 LLaMA-65B（得分為 23.7 和 37.7）。

此外，研究人員還對(duì)“書(shū)生·浦語(yǔ)”的安全性進(jìn)行評(píng)測(cè)，在 TruthfulQA（主要評(píng)價(jià)回答的事實(shí)準(zhǔn)確性）以及 CrowS-Pairs（主要評(píng)價(jià)回答是否含有偏見(jiàn)）上，“書(shū)生·浦語(yǔ)”均達(dá)到領(lǐng)先水平。

(責(zé)編：沐一帆、軒召?gòu)?qiáng))

分享讓更多人看到

客戶端下載

人民日?qǐng)?bào)
人民網(wǎng)+
手機(jī)人民網(wǎng)
領(lǐng)導(dǎo)留言板
人民視頻
人民智云
人民智作

熱門排行

人民日?qǐng)?bào)社概況 | 關(guān)于人民網(wǎng) | 報(bào)社招聘 | 招聘英才 | 廣告服務(wù) | 合作加盟 | 供稿服務(wù) | 數(shù)據(jù)服務(wù) | 網(wǎng)站聲明 | 網(wǎng)站律師 | 信息保護(hù) | 聯(lián)系我們

人民日?qǐng)?bào)違法和不良信息舉報(bào)電話：010-65363263 舉報(bào)郵箱：jubao@people.cn

人民網(wǎng)服務(wù)郵箱：kf@people.cn 違法和不良信息舉報(bào)電話：010-65363636 舉報(bào)郵箱：rmwjubao@people.cn

互聯(lián)網(wǎng)新聞信息服務(wù)許可證10120170001 | 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B1-20060139 | 廣播電視節(jié)目制作經(jīng)營(yíng)許可證（廣媒）字第172號(hào)

信息網(wǎng)絡(luò)傳播視聽(tīng)節(jié)目許可證0104065 | 網(wǎng)絡(luò)文化經(jīng)營(yíng)許可證京網(wǎng)文[2020]5494-1075號(hào) | 網(wǎng)絡(luò)出版服務(wù)許可證（京）字121號(hào) | 京ICP證000006號(hào) | 京公網(wǎng)安備11000002000008號(hào)

人民網(wǎng) 版權(quán) 所有，未經(jīng) 書(shū) 面授權(quán) 禁止使用
Copyright © 1997-2023 by www.people.com.cn. all rights reserved

評(píng)論
分享
關(guān)注
微信微博快手
第一時(shí)間為您推送權(quán)威資訊

報(bào)道全球傳播中國(guó)

關(guān)注人民網(wǎng)，傳播正能量

返回頂部

<abbr id="cayyc"></abbr>

<td id="cayyc"></td>