人民網(wǎng)
人民網(wǎng)>>上海頻道

上海:發(fā)力語料,建設(shè)“模都”

馬作鵬 唐小麗
2024年07月06日11:43 | 來源:人民網(wǎng)-上海頻道
小字號(hào)

“人工智能,是人類養(yǎng)育的‘孩子’,而語料就是‘教材’!”

“我們希望人工智能在倫理價(jià)值上有德、情緒價(jià)值上有趣、文化價(jià)值上有品、社會(huì)價(jià)值上有序、技術(shù)價(jià)值上有用?!?/p>

7月6日上午,上海黃浦江畔,2024世界人工智能大會(huì),一場關(guān)于人工智能語料的論壇首次舉辦。

時(shí)針回?fù)艿揭荒昵暗慕裉臁?023世界人工智能大會(huì),上海市委書記陳吉寧與上海市市長龔正共同見證,上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、國家氣象中心等單位聯(lián)合發(fā)起的中國第一個(gè)大模型語料數(shù)據(jù)聯(lián)盟正式成立。

2023年7月6日,大模型語料數(shù)據(jù)聯(lián)盟成立。人民網(wǎng)記者 王初攝

人工智能大模型取決于三大要素:算力、算法、語料。算力是硬件,算法是大模型企業(yè)的核心競爭力。中國是世界上數(shù)字化應(yīng)用場景最豐富的國家,各種場景提供了極為豐富的語料。中國是語料大國,但因?yàn)楦鞣N語料良莠不齊、涉及隱私,甚至違規(guī)、違法,目前急需與人類價(jià)值對(duì)齊的規(guī)范語料。

正因于此,上海才會(huì)如此重視語料建設(shè)。

縱觀全國,北京、上海、深圳、杭州四地在人工智能領(lǐng)域深耕已久,正執(zhí)產(chǎn)業(yè)發(fā)展之牛耳。上海的特點(diǎn),是AI頂層設(shè)計(jì)有力,場景應(yīng)用豐富,并在公共數(shù)據(jù)開源方面進(jìn)行了長期大量的探索。

從183家到348家,上海人工智能產(chǎn)業(yè)規(guī)上企業(yè)數(shù)量在2018至2023年這5年間實(shí)現(xiàn)高速增長。商湯科技、達(dá)觀數(shù)據(jù)、星環(huán)科技等企業(yè)開拓人工智能“新藍(lán)?!?,培育大模型產(chǎn)業(yè)發(fā)展新生態(tài),加快形成新質(zhì)生產(chǎn)力。

上海市已有34款大模型通過備案,產(chǎn)生了制造業(yè)、金融、具身智能機(jī)器人等垂類領(lǐng)域應(yīng)用;多款通用人形機(jī)器人原型機(jī)發(fā)布,實(shí)現(xiàn)雙足避障行走;4200億Token的語料數(shù)據(jù)實(shí)現(xiàn)開源。

2023年被稱作“智能互聯(lián)網(wǎng)元年”,這一年,我們見證了激烈的“百模大戰(zhàn)”。除了科技巨頭先后入局之外,迅速崛起的一批AI企業(yè)也在不斷進(jìn)場。

而備受業(yè)界關(guān)注的語料數(shù)據(jù)的應(yīng)用,還需在人工智能具體實(shí)踐中找到未來。

人工智能,是上海著力發(fā)展的三大先導(dǎo)產(chǎn)業(yè)之一,也是發(fā)展新質(zhì)生產(chǎn)力的重要引擎。隨著大模型時(shí)代到來,上海力圖先行一步,構(gòu)建大模型創(chuàng)新策源地,建設(shè)新的“模都”。

去年9月,2023世界人工智能大會(huì)閉幕不久,上?!澳K倏臻g”創(chuàng)新生態(tài)社區(qū)即在徐匯西岸揭牌成立。作為全國首個(gè)、上海唯一的生成式AI專業(yè)孵化和加速載體,目前這里已入駐大模型上下游企業(yè)80余家,力爭成為代表上海乃至國家贏取全球科技戰(zhàn)略競爭主動(dòng)權(quán)的“主力因子”。

全國首個(gè)大模型創(chuàng)新生態(tài)社區(qū)“模速空間”。受訪單位供圖

今年3月下旬,在上海市經(jīng)信委大力推進(jìn)下,由上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、中國電信、商湯、階躍星辰等多家頭部人工智能領(lǐng)軍企業(yè)共同出資,注冊成立中國第一家人工智能語料公司——上海庫帕思科技有限公司。庫帕思公司董事長山棟明表示,希望為全國的人工智能企業(yè)提供“1+N”式的語料服務(wù)其中,“1”為公共的核心語料,包括世界知識(shí)體系和價(jià)值對(duì)齊體系;“N”為面向垂直應(yīng)用領(lǐng)域等的專業(yè)語料。

在追逐浪潮中,不少企業(yè)發(fā)現(xiàn),并非誰都有精力、有能力去做基礎(chǔ)大模型,于是“小模型”——垂類大模型順勢而生。專門為具體行業(yè)而設(shè)計(jì)的“小模型”如何在企業(yè)等應(yīng)用場景落地?這是許多AI企業(yè)負(fù)責(zé)人普遍關(guān)注的問題。

“銀行審計(jì)業(yè)務(wù)面臨數(shù)據(jù)信息和系統(tǒng)架構(gòu)的分散性、異構(gòu)性和復(fù)雜性等問題,深挖各類數(shù)據(jù)的價(jià)值一直是挑戰(zhàn),且銀行內(nèi)部數(shù)據(jù)的有效利用率普遍不高,尤其是審計(jì)部門內(nèi)部大量文本數(shù)據(jù)未形成資產(chǎn)?!倍嗄陙?,深耕垂類大模型領(lǐng)域的達(dá)觀數(shù)據(jù)在金融行業(yè)文本處理方面,積累了大量金融專業(yè)數(shù)據(jù)。

如今,達(dá)觀數(shù)據(jù)的垂類大模型已經(jīng)開始面向銀行審計(jì)人員,為審計(jì)監(jiān)控平臺(tái)提供接口服務(wù),還可對(duì)各類文檔進(jìn)行比對(duì),大大提高工作效率。

“樓上住戶噪音擾民,尤其晚上進(jìn)出人很多,懷疑是群租房,請(qǐng)管理部門盡快解決?!苯?,浦東新區(qū)塘橋街道城運(yùn)中心接到12345市民熱線投訴工單,“數(shù)字社工”城運(yùn)助手立即對(duì)工單內(nèi)容進(jìn)行分析,并自動(dòng)精準(zhǔn)分派給主、協(xié)辦部門處置,整個(gè)流程不到2分鐘。

“數(shù)字社工”以大模型為底座,能夠適應(yīng)基層政務(wù)的多種使用場景。“以前,工單派遣靠經(jīng)驗(yàn),分析研判靠人工,費(fèi)時(shí)費(fèi)力?!弊浴皵?shù)字社工”上崗以來,在城運(yùn)中心工作十余年的卜丹鳳見證了科技給基層治理帶來的變化。

“數(shù)字社工”能夠?qū)⒐畏植记闆r生成熱力圖。人民網(wǎng)記者 唐小麗攝

如今,塘橋街道城運(yùn)中心自動(dòng)派單準(zhǔn)確率超過90%,工單處置效率提升60%,績效分析和報(bào)表生成從2小時(shí)縮減至10分鐘,居民回訪滿意度再提升?!斑@樣的技術(shù)應(yīng)用,真是實(shí)實(shí)在在為基層減負(fù)?!辈返P感慨道。

協(xié)同區(qū)域發(fā)展、構(gòu)建智慧城市、重塑商業(yè)密碼、打造數(shù)字文娛……在上海,AI正深度鏈接千行百業(yè)。擁抱“人工智能+”,在AI助力下推動(dòng)傳統(tǒng)行業(yè)轉(zhuǎn)型升級(jí),指引新興行業(yè)加速生長,已成為當(dāng)下業(yè)界共識(shí),發(fā)展趨勢不可阻擋。

2024年7月6日的語料論壇上,語料庫建設(shè)導(dǎo)則正式發(fā)布。人民網(wǎng)記者 王初攝

“人工智能訓(xùn)練,不僅要關(guān)注數(shù)據(jù)語料的數(shù)量,也要重視‘?dāng)?shù)據(jù)配方’,用高質(zhì)量數(shù)據(jù)的最優(yōu)組合,提升AI效能與安全性?!闭Z料論壇上,人民網(wǎng)負(fù)責(zé)人介紹,通過倫理價(jià)值、情緒價(jià)值、文化價(jià)值、社會(huì)價(jià)值、技術(shù)價(jià)值五個(gè)維度的對(duì)齊,建設(shè)優(yōu)質(zhì)語料“好教材”,幫助大模型成長為“以人為本、智能向善、造福人類”、符合全人類共同價(jià)值的“好孩子”。

事實(shí)上,人民網(wǎng)在人工智能基礎(chǔ)語料庫的建設(shè)工作布局已久。

據(jù)人民日?qǐng)?bào)社傳播內(nèi)容認(rèn)知全國重點(diǎn)實(shí)驗(yàn)室研究員郭俊波介紹,該實(shí)驗(yàn)室成立于2019年11月,由人民日?qǐng)?bào)社主管,依托人民網(wǎng)建設(shè)。實(shí)驗(yàn)室建設(shè)以國家重大需求為導(dǎo)向、應(yīng)用基礎(chǔ)研究為定位、學(xué)科交叉融合為特色,助推媒體融合向縱深發(fā)展。

在他看來,人工智能的多維度價(jià)值對(duì)齊需要根據(jù)不同維度的具體要求,結(jié)合其重要程度與規(guī)范性要求,制定分級(jí)分類標(biāo)準(zhǔn),形成對(duì)人工智能進(jìn)行安全風(fēng)險(xiǎn)和能力水平評(píng)價(jià)的規(guī)范和要求,指導(dǎo)語料資源的建設(shè),提升人工智能的價(jià)值對(duì)齊能力。

針對(duì)當(dāng)前人工智能在價(jià)值對(duì)齊方面的瓶頸問題,郭俊波和人民網(wǎng)上海分公司總經(jīng)理、庫帕思董事金煜純介紹,未來實(shí)驗(yàn)室將與上海庫帕思公司攜手,共同建設(shè)價(jià)值對(duì)齊體系語料,形成以基礎(chǔ)語料和問答語料2種形式為主,覆蓋5大價(jià)值、3大圈層、14個(gè)類別、38個(gè)細(xì)分維度的高質(zhì)量、多維度價(jià)值對(duì)齊基石語料庫。雙方將結(jié)合各自在數(shù)據(jù)、技術(shù)、人才等方面的優(yōu)勢資源,共同為人工智能的價(jià)值對(duì)齊和能力提升提供高質(zhì)量教材和語料。

如何獲取高質(zhì)量的數(shù)據(jù)?如何讓大模型更好落地造福人類?未知的明天,既是機(jī)遇,亦是挑戰(zhàn),大模型一路成長為符合人類共同價(jià)值的“好孩子”,尚需多方攜手并肩。

(責(zé)編:唐小麗、軒召強(qiáng))

分享讓更多人看到

返回頂部