破AI语料版权乱象 22家机构共建人工智能高质量语料库
中国新闻网| 2026-05-24 18:46:58

  中新网深圳5月24日电 (记者 索有为)无序爬取、盗版拆解、侵权商用……这是长期困扰人工智能行业的语料侵权乱象。人工智能高质量语料库建设共建单位启动会议23日在深圳举行,首批22家出版、传媒、版权、科技领域权威单位联合签署《人工智能高质量语料库建设公约》,确立“先授权、后使用”的原则,向AI语料侵权顽疾正式亮剑。

  当前国内人工智能产业加速落地,大模型对优质知识语料需求呈爆发式增长。但行业长期存在野蛮生长现象:不少AI大模型直接网络爬取原创内容、拆解正版出版物、盗用图文音视频资源用于模型训练,既严重侵害内容创作方与出版机构合法权益,也因语料来源杂乱、内容失准,造成大模型输出谬误频出、逻辑失真、幻觉严重等问题,更暗藏数据安全与文化安全潜在风险。版权确权难、授权难、维权难成为制约行业高质量发展的核心痛点。

启动会议现场。彭程 摄

  直面行业痛点和行业顽疾,本次签署的《共建公约》作出规范,明确要求所有用于AI训练的文字、图表、图片、音视频等各类素材,必须提前取得合法版权授权,坚决杜绝无授权抓取、私自拆解、侵权商用等违规行为,从源头遏制AI版权侵权乱象。

  中国大百科全书出版社社长高世屹表示,本次共建将严格恪守“先授权、后使用”准则,全力打造可授权、可追溯、可商用的国家级正版高质量语料库,从源头上规范AI高质量语料使用生态。

  会议同步发布建设倡议书,呼吁全行业联手抵制AI无序爬取、盗版盗用等违规行为,搭建行业快速维权、纠纷调解、风险预警一体化协同机制,以共治之力净化产业发展环境。与会代表表示,版权保护是AI高质量语料库建设的生命线与立身之本。

  此次多方共建将建立常态化版权协同保护机制,统一梳理版权权属清单,打通版权确权、流转、授权全链条通道,针对跨领域、常态化侵权行为开展联合惩戒与集体维权。据了解,共建阵营还将引入区块链技术赋能全流程管理,实现语料入库、授权流转、商业交易全程留痕、可溯源、可监管,从技术层面彻底破解长期困扰行业的授权难、确权难、追责难三大痛点。

  业内普遍认为,此次深圳签约确立的合规共建模式,将树立国内AI语料正版化、规范化使用标杆,为人工智能大模型健康发展筑牢版权屏障,推动人工智能产业驶入合规化、高质量发展快车道。(完)

【编辑:黄钰涵】
精彩推荐
张健工商资本下乡不能偏离 改善社会资本进入的基础环境
05-19
复制一批特斯拉项目 让“特斯拉速度”成为“上海速度”常态
05-18
猪肉价格真的降了 下半年逐步达到正常的水准是有可能的
05-11
大众公布在华销量 推进产品攻势 提供多样化、年轻化的选择
04-20
高江涛掌权斯威汽车 推出“预售抢购模式”及“两级火箭渠道模式”
04-20
美国消费数据创历史最糟纪录 未来股市可能会大幅下跌
04-17
热点推荐
五六天后:科学减脂 专业营养师团队为您的健康“保驾护航”
06-08
谜茵焕肤精华:开启非入侵式医美级护肤体验
06-08
草本与咖啡的结合——品晟咖啡强势登场
06-08
艾德证券港股打新京东|大有机会博10%的收益,来不来?
06-08
福鼎白牡丹对女人的具体好处有哪些?
06-08
TMALL@HOME 天猫家居生活展亮相上海K11,用脑洞致敬生活!
06-08