人民網(wǎng)
人民網(wǎng)>>上海頻道>>要聞

大江東|上海:發(fā)力語料,建設(shè)“模都”

人民日報(bào)中央廚房-大江東工作室 唐小麗 馬作鵬
2024年07月08日09:14 |
小字號(hào)

“人工智能,是人類養(yǎng)育的‘孩子’,而語料就是‘教材’?!?/span>

“我們希望人工智能在倫理價(jià)值上有德、情緒價(jià)值上有趣、文化價(jià)值上有品、社會(huì)價(jià)值上有序、技術(shù)價(jià)值上有用?!?/span>

7月6日,2024世界人工智能大會(huì)舉辦期間,一場關(guān)于人工智能語料的論壇首次在滬舉辦。

時(shí)針回?fù)艿揭荒昵?,?023世界人工智能大會(huì)上,在上海市委書記陳吉寧、上海市市長龔正共同見證下,上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、國家氣象中心等單位聯(lián)合發(fā)起的中國第一個(gè)大模型語料數(shù)據(jù)聯(lián)盟成立。

2023年7月6日,大模型語料數(shù)據(jù)聯(lián)盟成立。王初攝

人工智能需要與人類價(jià)值對齊的規(guī)范語料

人工智能大模型取決于三大要素:算力、算法、語料。

算力是硬件,算法是大模型企業(yè)的核心競爭力,語料則是大模型訓(xùn)練的重要“燃料”,高質(zhì)量的語料對于大模型在各行各業(yè)的應(yīng)用十分關(guān)鍵。中國是世界上數(shù)字化應(yīng)用場景最豐富的國家,各種場景提供了極為豐富的語料,但各種語料中也存在良莠不齊現(xiàn)象,有些涉及隱私,有的甚至違規(guī)違法。目前,大模型發(fā)展急需與人類價(jià)值對齊的規(guī)范語料。

正因于此,上海一直高度重視語料建設(shè)。

縱觀全國,北京、上海、深圳、杭州四地在人工智能領(lǐng)域深耕已久,正執(zhí)產(chǎn)業(yè)發(fā)展之牛耳。上海的特點(diǎn),是人工智能頂層設(shè)計(jì)有力,場景應(yīng)用豐富,并在公共數(shù)據(jù)開源方面進(jìn)行了長期大量探索。

從183家到348家,上海人工智能產(chǎn)業(yè)規(guī)上企業(yè)數(shù)量在2018年至2023年間實(shí)現(xiàn)高速增長。商湯科技、達(dá)觀數(shù)據(jù)、星環(huán)科技等企業(yè)開拓人工智能“新藍(lán)?!?,培育大模型產(chǎn)業(yè)發(fā)展新生態(tài),加快形成新質(zhì)生產(chǎn)力。

上海市已有34款大模型通過備案,產(chǎn)生了制造業(yè)、金融、具身智能機(jī)器人等垂類領(lǐng)域應(yīng)用;多款通用人形機(jī)器人原型機(jī)發(fā)布,實(shí)現(xiàn)雙足避障行走;4200億Token的語料數(shù)據(jù)實(shí)現(xiàn)開源。

人工智能,是上海著力發(fā)展的三大先導(dǎo)產(chǎn)業(yè)之一,也是發(fā)展新質(zhì)生產(chǎn)力的重要引擎。隨著大模型時(shí)代到來,上海力圖先行一步,構(gòu)建大模型創(chuàng)新策源地,建設(shè)新的“模都”。

去年9月,2023世界人工智能大會(huì)閉幕不久,上海“模速空間”創(chuàng)新生態(tài)社區(qū)即在徐匯西岸揭牌成立。作為全國首個(gè)、上海唯一的生成式人工智能專業(yè)孵化和加速載體,目前這里已入駐大模型上下游企業(yè)80余家,力爭成為代表上海乃至國家贏取全球科技戰(zhàn)略競爭主動(dòng)權(quán)的“主力因子”。

全國首個(gè)大模型創(chuàng)新生態(tài)社區(qū)“模速空間”。受訪單位供圖

今年3月下旬,在上海市經(jīng)信委大力推進(jìn)下,由上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、中國電信、商湯、階躍星辰等多家頭部人工智能領(lǐng)軍企業(yè)共同出資,注冊成立中國第一家人工智能語料公司——上海庫帕思科技有限公司。庫帕思公司董事長山棟明表示,希望為全國的人工智能企業(yè)提供“1+N”式的語料服務(wù)。其中,“1”為公共的核心語料,包括世界知識(shí)體系和價(jià)值對齊體系;“N”為面向垂直應(yīng)用領(lǐng)域等的專業(yè)語料。

語料數(shù)據(jù)推進(jìn)人工智能深度鏈接千行百業(yè)

備受業(yè)界關(guān)注的語料數(shù)據(jù)的應(yīng)用,還需在人工智能具體實(shí)踐中找到未來。

在追逐浪潮中,不少企業(yè)發(fā)現(xiàn),并非誰都有精力、有能力去做基礎(chǔ)大模型,于是“小模型”——垂類大模型順勢而生。專門為具體行業(yè)而設(shè)計(jì)的“小模型”如何在企業(yè)等應(yīng)用場景落地?這是許多人工智能企業(yè)負(fù)責(zé)人普遍關(guān)注的問題。

“銀行審計(jì)業(yè)務(wù)面臨數(shù)據(jù)信息和系統(tǒng)架構(gòu)的分散性、異構(gòu)性和復(fù)雜性等問題,深挖各類數(shù)據(jù)的價(jià)值一直是挑戰(zhàn),且銀行內(nèi)部數(shù)據(jù)的有效利用率普遍不高,尤其是審計(jì)部門內(nèi)部大量文本數(shù)據(jù)未形成資產(chǎn)。”多年來,深耕垂類大模型領(lǐng)域的達(dá)觀數(shù)據(jù)在金融行業(yè)文本處理方面,積累了大量金融專業(yè)數(shù)據(jù)。如今,達(dá)觀數(shù)據(jù)的垂類大模型已經(jīng)開始面向銀行審計(jì)人員,為審計(jì)監(jiān)控平臺(tái)提供接口服務(wù),還可對各類文檔進(jìn)行比對,大大提高工作效率。

“樓上住戶噪音擾民,尤其晚上進(jìn)出人很多,懷疑是群租房,請管理部門盡快解決。”近日,浦東新區(qū)塘橋街道城運(yùn)中心接到12345市民熱線投訴工單,“數(shù)字社工”城運(yùn)助手立即對工單內(nèi)容進(jìn)行分析,并自動(dòng)精準(zhǔn)分派給主辦、協(xié)辦部門處置,整個(gè)流程不到2分鐘。

“數(shù)字社工”以大模型為底座,能夠適應(yīng)基層政務(wù)的多種使用場景?!耙郧?,工單派遣靠經(jīng)驗(yàn),分析研判靠人工,費(fèi)時(shí)費(fèi)力?!痹诔沁\(yùn)中心工作10多年的卜丹鳳說,“數(shù)字社工”上崗后,給基層治理帶來了明顯的變化。

“數(shù)字社工”能夠?qū)⒐畏植记闆r生成熱力圖。唐小麗攝

如今,塘橋街道城運(yùn)中心自動(dòng)派單準(zhǔn)確率超過90%,工單處置效率提升60%,績效分析和報(bào)表生成從2小時(shí)縮減至10分鐘,居民回訪滿意度進(jìn)一步提升?!斑@樣的技術(shù)應(yīng)用,真是實(shí)實(shí)在在為基層減負(fù)?!辈返P感慨道。

協(xié)同區(qū)域發(fā)展、構(gòu)建智慧城市、重塑商業(yè)密碼、打造數(shù)字文娛……在上海,人工智能正深度鏈接千行百業(yè)。擁抱“AI+”,在人工智能助力下推動(dòng)傳統(tǒng)行業(yè)轉(zhuǎn)型升級、指引新興行業(yè)加速生長,已成為當(dāng)下業(yè)界共識(shí),發(fā)展趨勢不可阻擋。

讓人工智能成長為符合全人類共同價(jià)值的“好孩子”

論壇上,人民網(wǎng)、人民日報(bào)社傳播內(nèi)容認(rèn)知全國重點(diǎn)實(shí)驗(yàn)室聯(lián)合上海庫帕思科技有限公司,正式發(fā)布人工智能價(jià)值對齊“五有”框架。

2024年7月6日,世界人工智能大會(huì)語料論壇現(xiàn)場。王初攝

人民網(wǎng)、人民日報(bào)社傳播內(nèi)容認(rèn)知全國重點(diǎn)實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人表示,建設(shè)多維度價(jià)值對齊的語料庫,應(yīng)該堅(jiān)持“以人為本、智能向善、造福人類”的原則,鼓勵(lì)通過國際合作和實(shí)際行動(dòng),幫助世界各國加強(qiáng)人工智能能力建設(shè)。這個(gè)體系分成5個(gè)主要維度,分別是:體現(xiàn)遵循社會(huì)道德規(guī)范和法治精神的倫理價(jià)值維度,體現(xiàn)滿足個(gè)人和群體情感認(rèn)同交流和成長需求的情緒價(jià)值維度,體現(xiàn)助力大眾文化素養(yǎng)提升和促進(jìn)文明互鑒共進(jìn)的文化價(jià)值維度,體現(xiàn)推動(dòng)社會(huì)公平正義和可持續(xù)創(chuàng)新發(fā)展的社會(huì)價(jià)值維度,體現(xiàn)推動(dòng)科技創(chuàng)新與可控可治的技術(shù)價(jià)值維度。

倫理價(jià)值維度,希望人工智能是有德的。倫理價(jià)值是人類社會(huì)長期發(fā)展的文明積淀,是社會(huì)科學(xué)研究的重點(diǎn)領(lǐng)域,也是公眾日常行為生活的規(guī)范。倫理價(jià)值的語料來源及層次非常豐富,要構(gòu)建涵蓋基礎(chǔ)理論、歷史文化和現(xiàn)實(shí)生活等三大板塊的多角度語料內(nèi)容,全面反映倫理價(jià)值的內(nèi)涵與外延。

情緒價(jià)值維度,希望人工智能是有趣的。情緒價(jià)值服務(wù)于“技術(shù)為人類服務(wù)”的根本宗旨,希望人工智能將來的發(fā)展目標(biāo)能與人類共情、共鳴,這也是當(dāng)前人工智能發(fā)展的短板。該維度的語料庫建設(shè)具有很強(qiáng)的普適性,同時(shí)存在個(gè)性化、場景化和地域化等特定需求。希望構(gòu)建涵蓋治愈成長、互動(dòng)共鳴及自娛探索等三大板塊的多角度語料內(nèi)容,全面提升人工智能的情緒價(jià)值。

文化價(jià)值維度,希望人工智能是有品的。人工智能技術(shù)的發(fā)展和應(yīng)用,應(yīng)充分尊重和促進(jìn)不同文化之間的平等對話和交流,鼓勵(lì)文化多樣性和包容性。應(yīng)重點(diǎn)構(gòu)建涵蓋中國元素、傳統(tǒng)文化及全球文化等三大板塊的多角度語料內(nèi)容,推廣各國文化發(fā)展和文明進(jìn)步過程中形成的精神財(cái)富和智慧積累,啟發(fā)人工智能在人文關(guān)懷、審美塑造和啟迪智慧方面的積極作用。

社會(huì)價(jià)值維度,希望人工智能是有序的。社會(huì)價(jià)值側(cè)的板塊語料,將體現(xiàn)人類普遍認(rèn)同的關(guān)于國家、民族、社會(huì)以及全人類層面的價(jià)值理念、處事原則和行為規(guī)范。要重點(diǎn)從社會(huì)和諧、社會(huì)發(fā)展、全球治理等三大板塊來進(jìn)行語料組織和建設(shè),讓人工智能成為促進(jìn)全人類文明和發(fā)展的推動(dòng)力量。

技術(shù)價(jià)值維度,希望人工智能是有用的。安全性是實(shí)現(xiàn)技術(shù)價(jià)值對齊的首要前提,可靠性是確保人工智能系統(tǒng)廣泛應(yīng)用和獲得人類信賴的關(guān)鍵,可控性是保障人工智能系統(tǒng)依照人類預(yù)期行動(dòng)的基礎(chǔ),公平性是實(shí)現(xiàn)技術(shù)普惠和避免社會(huì)不公的重要條件。要建設(shè)對人類有益的,對人工智能的安全性、可靠性、可控性和公平性進(jìn)行測評和風(fēng)險(xiǎn)評估的語料數(shù)據(jù)庫。

簡言之,就是希望人工智能在倫理價(jià)值上有德、情緒價(jià)值上有趣、文化價(jià)值上有品、社會(huì)價(jià)值上有序、技術(shù)價(jià)值上有用。“通過5個(gè)維度的價(jià)值對齊,建設(shè)優(yōu)質(zhì)語料‘好教材’,助其成長為符合全人類共同價(jià)值的‘好孩子’。”語料論壇上,人民網(wǎng)負(fù)責(zé)人表示。

(責(zé)編:嚴(yán)遠(yuǎn)、軒召強(qiáng))

分享讓更多人看到

返回頂部