破AI語料版權(quán)亂象 22家機(jī)構(gòu)共建人工智能高質(zhì)量語料庫
中新網(wǎng)深圳5月24日電 (記者 索有為)無序爬取、盜版拆解、侵權(quán)商用……這是長期困擾人工智能行業(yè)的語料侵權(quán)亂象。人工智能高質(zhì)量語料庫建設(shè)共建單位啟動會議23日在深圳舉行,首批22家出版、傳媒、版權(quán)、科技領(lǐng)域權(quán)威單位聯(lián)合簽署《人工智能高質(zhì)量語料庫建設(shè)公約》,確立“先授權(quán)、后使用”的原則,向AI語料侵權(quán)頑疾正式亮劍。
當(dāng)前國內(nèi)人工智能產(chǎn)業(yè)加速落地,大模型對優(yōu)質(zhì)知識語料需求呈爆發(fā)式增長。但行業(yè)長期存在野蠻生長現(xiàn)象:不少AI大模型直接網(wǎng)絡(luò)爬取原創(chuàng)內(nèi)容、拆解正版出版物、盜用圖文音視頻資源用于模型訓(xùn)練,既嚴(yán)重侵害內(nèi)容創(chuàng)作方與出版機(jī)構(gòu)合法權(quán)益,也因語料來源雜亂、內(nèi)容失準(zhǔn),造成大模型輸出謬誤頻出、邏輯失真、幻覺嚴(yán)重等問題,更暗藏?cái)?shù)據(jù)安全與文化安全潛在風(fēng)險(xiǎn)。版權(quán)確權(quán)難、授權(quán)難、維權(quán)難成為制約行業(yè)高質(zhì)量發(fā)展的核心痛點(diǎn)。

直面行業(yè)痛點(diǎn)和行業(yè)頑疾,本次簽署的《共建公約》作出規(guī)范,明確要求所有用于AI訓(xùn)練的文字、圖表、圖片、音視頻等各類素材,必須提前取得合法版權(quán)授權(quán),堅(jiān)決杜絕無授權(quán)抓取、私自拆解、侵權(quán)商用等違規(guī)行為,從源頭遏制AI版權(quán)侵權(quán)亂象。
中國大百科全書出版社社長高世屹表示,本次共建將嚴(yán)格恪守“先授權(quán)、后使用”準(zhǔn)則,全力打造可授權(quán)、可追溯、可商用的國家級正版高質(zhì)量語料庫,從源頭上規(guī)范AI高質(zhì)量語料使用生態(tài)。
會議同步發(fā)布建設(shè)倡議書,呼吁全行業(yè)聯(lián)手抵制AI無序爬取、盜版盜用等違規(guī)行為,搭建行業(yè)快速維權(quán)、糾紛調(diào)解、風(fēng)險(xiǎn)預(yù)警一體化協(xié)同機(jī)制,以共治之力凈化產(chǎn)業(yè)發(fā)展環(huán)境。與會代表表示,版權(quán)保護(hù)是AI高質(zhì)量語料庫建設(shè)的生命線與立身之本。
此次多方共建將建立常態(tài)化版權(quán)協(xié)同保護(hù)機(jī)制,統(tǒng)一梳理版權(quán)權(quán)屬清單,打通版權(quán)確權(quán)、流轉(zhuǎn)、授權(quán)全鏈條通道,針對跨領(lǐng)域、常態(tài)化侵權(quán)行為開展聯(lián)合懲戒與集體維權(quán)。據(jù)了解,共建陣營還將引入?yún)^(qū)塊鏈技術(shù)賦能全流程管理,實(shí)現(xiàn)語料入庫、授權(quán)流轉(zhuǎn)、商業(yè)交易全程留痕、可溯源、可監(jiān)管,從技術(shù)層面徹底破解長期困擾行業(yè)的授權(quán)難、確權(quán)難、追責(zé)難三大痛點(diǎn)。
業(yè)內(nèi)普遍認(rèn)為,此次深圳簽約確立的合規(guī)共建模式,將樹立國內(nèi)AI語料正版化、規(guī)范化使用標(biāo)桿,為人工智能大模型健康發(fā)展筑牢版權(quán)屏障,推動人工智能產(chǎn)業(yè)駛?cè)牒弦?guī)化、高質(zhì)量發(fā)展快車道。(完)
社會新聞精選:
- 2026年05月24日 21:32:29
- 2026年05月24日 15:46:29
- 2026年05月24日 15:45:33
- 2026年05月24日 15:42:23
- 2026年05月24日 14:03:25
- 2026年05月24日 10:36:01
- 2026年05月23日 20:39:59
- 2026年05月23日 18:08:47
- 2026年05月23日 17:07:17
- 2026年05月23日 17:06:09














































京公網(wǎng)安備 11010202009201號