面对数据污染更要多几分“信息免疫力”

中国新闻网| 2026-03-18 11:14:31

　　看似无所不能，实则提线木偶？近日，一项名为“GEO(生成式引擎优化)”的业务被多家媒体曝光后引发广泛关注。调查发现，一些不法商家仅需支付少量费用，即可通过技术手段给大模型定向输入虚假广告信息，最终让AI生成内容“夹带私货”，向用户推荐假冒伪劣产品。

　　自互联网成为公众获取信息的主渠道后，与之相关的各种信息“优化”策略应运而生。比如搜索引擎时代，为了让自己能够在搜索结果中排名靠前，SEO(搜索引擎优化)成了商家网络营销的重头。GEO则是SEO技术的自然延伸，初衷是为了帮助内容更好地被搜索系统或AI系统理解，但当前黑灰产化的GEO乱象突破了道德甚至法治边界，将虚假信息进行海量发布，以此系统性决定大模型“看到什么、引用什么、如何组织答案”，从而达到影响甚至欺骗用户的目的。

　　相较于以前的互联网虚假广告只是在曝光位置上做文章，GEO乱象则是从AI的思维方式入手，试图扭曲整个模型的信息生产链路。过去用户看到广告，还能意识到“这是广告”；但在生成式AI场景里，商业操纵更可能以“AI总结后的建议”“AI 推荐的答案”“AI整理出的共识”等形态出现。有数据显示，当训练数据集中仅有0.01%的虚假文本时，模型输出的有害内容会增加11.2%；即使是0.001%的虚假文本，其有害输出也会相应上升7.2%。如任由GEO乱象蔓延，大模型很可能在被污染过的数据回音壁中不断进行再生产，最终导致互联网内容生态劣化。

　　“AI污染”细思极恐，必须引起足够重视。但毋庸讳言，这将是一场持久战。从原理上讲，AI系统只能通过“引用来源”“使用统计数据”“流畅且结构化的表达”等等标签来机械识别要采信的数据，这就决定了其信任机制存在结构性漏洞，与黑灰产化GEO的攻防将长期存在。对此，在模型企业强化技术自律、筑牢数据真实性与可靠性的内部防线的同时，监管也需多层次发力，既要尽快进行相关领域的立法，明确将“故意污染AI数据”定义为违法行为；也要加大执法力度，显著提高污染成本，遏制行业乱象。

　　以更大视野看，“AI污染”也给社会出了一道信息治理的新题。面对信息爆炸，许多人已习惯将记忆任务交给搜索引擎与数据库，在人工智能加剧知识“通货膨胀”后，又有不少人将判断思考能力交给了机器。但如今看来，AI检索、数据抓取、模型训练等可能并不那么靠谱，用户不能轻信或依赖“一键AI”的结果，而应保持一份清醒与反思，掌握自己思考、认知、判断的主动权。

　　技术进步往往是把双刃剑，其带来的显著优势与负面效应总是如影随形。多几分AI时代的“信息免疫力”，才能避免被轻易带到坑里。

　　作者：武川

　　来源：北京日报

【编辑:惠小东】