国际最新研究:人工智能大语言模型会在训练过程中“夹带私货”
中国新闻网| 2026-04-16 12:05:59

  中新网北京4月16日电 (记者 孙自法)随着人工智能(AI)大语言模型(LLM)越来越广泛的应用,其沾染人类缺点的一面也更多显现出来。

  国际学术期刊《自然》最新发表一篇人工智能研究论文称,一项研究显示,人工智能大语言模型可能会将某些不需要的特征传授给其他算法,即使在训练数据中清除原始特征后,这些如同人类“夹带私货”的特征仍可能持续存在。

本项研究的相关示意图(图片来自论文)。施普林格·自然 供图

  在此次一个研究案例中,一个大语言模型似乎通过数据中的隐含信号,将对猫头鹰的偏好传递给了其他模型。这项研究结果表明,在开发大语言模型时,需要进行更彻底的安全检查。

  该论文介绍,大语言模型可通过一种名为“蒸馏”的过程生成用于训练其他模型的数据集,该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的大语言模型,但目前尚不清楚“老师”模型的哪些特性会被传递给“学生”模型。

  在本项研究中,论文第一作者和共同通讯作者、美国人工智能安全和研究公司Anthropic的Alex Cloud与同事及合作者一起,使用GPT-4.1进行了实验:先让该模型具备与核心任务无关的特征(例如偏爱猫头鹰或特定树种),再用其训练一个仅输出数值数据且不包含该特征的“学生”模型。随后对该学生模型进行提示时,其超过60%的输出提到了老师模型最喜欢的动物或树木,而由没有特定偏好的老师模型训练出的学生模型中,这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时,同样观察到了这一现象。此外,若学生模型基于与老师模型语义不对齐的数字序列进行训练,则会继承这种不对齐性,从而产生有害输出——即便这些数字已经过过滤以剔除任何具有负面联想的内容。

  研究人员发现,这种潜意识学习(即通过语义无关的数据传递行为特征)主要发生在老师和学生均为同一模型(例如GPT-4.1老师与GPT-4.1学生)的情况下。他们指出,数据传递的具体机制尚不明确,需要进一步研究。

  论文作者表示,这项研究的局限性在于所选特征(例如最喜欢的动物和树木)过于简单,需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论认为,为了确保先进人工智能系统的安全性,需要进行更严格的安全测试,例如监控大语言模型的内部机制。(完)

【编辑:甘甜】
精彩推荐
张健工商资本下乡不能偏离 改善社会资本进入的基础环境
05-19
复制一批特斯拉项目 让“特斯拉速度”成为“上海速度”常态
05-18
猪肉价格真的降了 下半年逐步达到正常的水准是有可能的
05-11
大众公布在华销量 推进产品攻势 提供多样化、年轻化的选择
04-20
高江涛掌权斯威汽车 推出“预售抢购模式”及“两级火箭渠道模式”
04-20
美国消费数据创历史最糟纪录 未来股市可能会大幅下跌
04-17
热点推荐
五六天后:科学减脂 专业营养师团队为您的健康“保驾护航”
06-08
谜茵焕肤精华:开启非入侵式医美级护肤体验
06-08
草本与咖啡的结合——品晟咖啡强势登场
06-08
艾德证券港股打新京东|大有机会博10%的收益,来不来?
06-08
福鼎白牡丹对女人的具体好处有哪些?
06-08
TMALL@HOME 天猫家居生活展亮相上海K11,用脑洞致敬生活!
06-08