用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃
中国新闻网| 2024-07-27 12:46:58

  中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。

  该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。

  生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

  论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。

  随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。

  论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)

【编辑:曹子健】
精彩推荐
张健工商资本下乡不能偏离 改善社会资本进入的基础环境
05-19
复制一批特斯拉项目 让“特斯拉速度”成为“上海速度”常态
05-18
猪肉价格真的降了 下半年逐步达到正常的水准是有可能的
05-11
大众公布在华销量 推进产品攻势 提供多样化、年轻化的选择
04-20
高江涛掌权斯威汽车 推出“预售抢购模式”及“两级火箭渠道模式”
04-20
美国消费数据创历史最糟纪录 未来股市可能会大幅下跌
04-17
热点推荐
五六天后:科学减脂 专业营养师团队为您的健康“保驾护航”
06-08
谜茵焕肤精华:开启非入侵式医美级护肤体验
06-08
草本与咖啡的结合——品晟咖啡强势登场
06-08
艾德证券港股打新京东|大有机会博10%的收益,来不来?
06-08
福鼎白牡丹对女人的具体好处有哪些?
06-08
TMALL@HOME 天猫家居生活展亮相上海K11,用脑洞致敬生活!
06-08