大模型如何“反投毒”:一场有关RAG的自净反击战
作者 | 黄昱
随着AI模型渗透率的提高,一些说多了的“谎话”成了事实,并成为AI对现实的潜在威胁。
日前央视3·15将“给AI投毒”推上热搜。通过一款名为"力擎GEO(生成式引擎优化)优化系统"的软件,只需虚构一款产品并批量发布虚假软文,主流AI在推荐时就会将其列为“高性价比”产品。
这一乱象揭示了令人不安的现实:当人们以为在享受AI带来的"自由搜索"时,实际上可能正在一个被多方势力精心预设的信息环境中打转。
黑产服务商通过"数据投毒"操控AI推荐结果,将虚假信息包装成"标准答案"推送给数亿用户。
北京社科院副研究员王鹏告诉华尔街见闻,这一现象反映出,AI模型对信源缺乏实时真实性校验,生成式AI正在取代传统搜索引擎成为新的“软广温床”。
AI大模型投毒的核心,是在训练/微调、RAG(Retrieval-Augmented Generation,检索增强生成)、推理三大环节注入恶意数据 / 指令,让模型输出虚假、有害或被操控的内容。
3·15曝光的相当于是RAG 检索投毒(GEO/SEO 批量造假),本质上是AI被骗了。
AI问答90%依赖RAG,攻击者无需碰模型权重,只要污染外部知识库 / 网页即可操控答案。
当地基被污染,AI就成为了一个巨大的“楚门世界”。面对这样的威胁,大模型厂商要如何修筑起防御墙?与此同时,一个AI安全产业也在不断壮大。
3·15晚会曝光的GEO乱象,是导致“AI楚门世界”形成的原因之一。GEO让品牌内容在AI大模型生成答案时被优先引用、优先推荐,相当于AI 时代的“SEO”。
倘若 GEO 仅用于规范内容、提升 AI与检索系统的理解效率,它本是良性的信息竞争手段。
可如今GEO 早已偏离初衷:通过炮制伪内容、虚构权威、营造虚假共识、批量重复投放,从源头操控大模型的信息来源、引用偏好与答案生成逻辑。
大湾区人工智能应用研究院研究总监段磊告诉华尔街见闻,央视曝光的“AI投毒”本质是大模型的“智能表现”依赖互联网数据质量,数据治理如果没跟上,很容易出现被利益驱使的恶意污染数据、恶意使用GEO策略的行为,造成对其有利,但危害大模型发展和社会价值的局面。
段磊认为,这也反映了现在AI发展中的数据治理、安全技术和相关法规的滞后,需要跟上AI的整体发展速度。
有大模型相关技术人员告诉华尔街见闻,AI大模型会被数据投毒或者污染的环节主要包括三个,训练/微调、RAG 检索、推理三大环节,训练投毒改 “记忆”,RAG 投毒改 “答案”,推理投毒改“指令”。
当前危害最广、最易实施的是RAG 检索投毒,也是央视 3・15 曝光的核心。
AI安全专家、BraneMatrix公司CEO李光辉表示,当前GEO主要作用在AI的检索增强、联网搜索、知识库调用、RAG这类环节,本质上与模型训练、训练环境无关。
模型本身的参数并未被改动,只是在它回答问题时,桌上被摆满了一批经过精心操纵的“参考材料”。
GEO伪造虚假信息传播,本质上AI不是在“犯错”,只是在如实反映一个已经被污染的互联网。
数据投毒的产业化发展,暴露出AI时代内容治理的深层困境。
3·15晚会曝光后,以"力擎GEO"为关键词的搜索产品虽已被淘宝、闲鱼等平台快速下架,但“AI被骗”的问题不会彻底消失。
2026年1月29日,国家市场监督管理总局发布《2026年全国广告监管工作要点》,其中明确指出,AI生成广告是互联网广告监管的重点、难点问题。主管部门将会在新的一年对此开展集中整治,消除人工智能市场上出现的这些“噪音”和“杂音”
这次“AI投毒”暴露的主要是互联网环境中的信息安全问题,更揭示了大模型的“信任机制”存在结构性漏洞。
当前大模型的信任机制,建立在“多数即正确”的统计直觉之上。
比如AI大模型倾向于将高频出现、相互印证的信息视为更可信,而GEO正是通过批量生产“软文矩阵”,将特定品牌与“推荐”、“首选”等词反复绑定,以此“喂饱”模型。
共识幻觉也是当前大模型面临的一大问题。
模型默认网上被多次提及的观点更接近“共识”,GEO则利用这一点,伪造“专家测评”、“用户口碑”等内容闭环,让虚假信息在模型内部被“自我证实”。
华尔街见闻还发现,多数模型在回答时不会清晰标注信息来源,用户无法分辨答案是基于权威数据还是营销软文,这极大地削弱了追责的可能。
在RAG 环节投毒的核心逻辑,是利用大模型的抓取与排序机制,通过大规模“数据灌溉”让虚假信息在模型语料库中占据更高的权重,从而左右模型的输出结果。
有大模型企业内部人士告诉华尔街见闻,这本质上是一个长期存在且尚未彻底解决的问题。尽管此次“AI投毒“事件引发了广泛关注,各大模型厂商也并未专门出面进行解释。
这一问题其实从大模型诞生那一刻开始,很多AI大厂就意识到了,并将其作为重点攻克的难题之一。
据华尔街见闻了解,大模型厂商抵御 RAG 投毒的核心思路是全链路多层防御,大致路径是数据源准入、检索过滤、内容清洗生成校验、系统加固,通过这样层层拦截毒化内容、阻断指令劫持、约束输出可信度。
具体落地举措有:检索权重动态调整,即对批量生成、无来源、低信誉内容大幅降权,对时效性强的问题增加权威信源权重;时间切割策略,即对近期批量发布的内容延迟收录或降权,防止 GEO 黑产快速 “洗脑”。
此外,强调实时内容校验,生成答案前做事实核查、逻辑校验、安全过滤,对医疗、金融等敏感领域强制多源交叉验证。
值得一提的是,“溯源追踪”已成为行业标准:厂商不再仅仅依赖公开网页抓取,而是通过建立“高可信语料库”,优先采用权威媒体、学术期刊及持牌机构的官方数据。
段磊也指出,要真正抵御“AI投毒”,不应该完全依赖模型公司通过技术手段来应对,数据治理是整个行业、包括政府应该参与的生态治理,应推动AI数据安全的行业标准、规范数据集的采集、清洗和审核流程;对于恶意投毒的行为,应探索法律法规上的应对措施。
在普通大众看不到的数字暗处,一场针对人工智能“认知”的暗战已经升级。
攻击者不仅针对AI搜索的内容“投毒”,更将投毒目标前移至训练数据和开源组件等。
“AI投毒”正成为大模型公信力的“隐形杀手”。面对日益猖獗的恶意数据渗透,一场由大模型厂商、云巨头及安全新势力共同构筑的多层次“净水工程”正在加速成型。
目前的AI投毒防御呈现出明显的“双轨并行”特征:大模型厂商构建原生“免疫系统”,而专业的安全供应商则提供深度的“排毒方案”与合规审计。
据中研普华产业研究院《2024-2029年中国AI安全行业市场全景调研与发展前景预测报告》分析,到2028年,全球网络安全人工智能市场规模将达到606亿美元,复合年增长率为21.9%。
数世咨询报告指出,模型安全保护市场,自2025年开始加速进入需求爆发期,现阶段以合规为核心驱动。随着大模型稳定性以及数据要素价值的升高,未来以“合规+业务”为双轮驱动。
王鹏也表示,可以看到,AI发展已经催生大模型安全审计、语料清洗等专项服务。随 AI 普及,安全将从“选配”转为“刚需”。未来防御不仅是技术竞争,更是合规准入的门槛,具备全链路检测能力的第三方安全公司将迎来爆发。
在这场反AI投毒的战役中,参与方已根据各自的技术基因,演化出三种清晰的业务逻辑。
第一类是传统安全巨头的“AI化盾牌”,代表厂商有奇安信、启明星辰、深信服、360、绿盟科技等,这派玩家利用深厚的网络安全积淀,将投毒防御嵌入到其原有的流量监测和数据安全体系中。
第二类是云与AI巨头例如 阿里云、腾讯云、华为云、微软Azure、AWS等。作为平台方,他们关注的是如何在大模型运行的环境中加装监控,聚焦“环境隔离”与“指令审计”等。
第三类则是新兴AI安全供应商。其中瑞莱智慧、Protect AI、Pillar Security等会为模型提供专业的 “压力测试”,主动识别训练集中的投毒后门,同时通过神经元级的检测技术,发现 AI 在处理特定数据时的异常波动,从而精准揪出隐藏在海量语料中的 “毒株”。
同样属于AI安全供应商的海致科技,则核心聚焦 AI 幻觉治理与图模融合可信推理,星澜科技侧重 AI内容安全与深度伪造检测。
“AI技术的大规模应用正以前所未有的深度重塑网络安全的产业版图。”一位人工智能投资人士告诉华尔街见闻,网络安全建设的战略价值愈发突出,行业正迎来关键拐点。
段磊则认为,随着AI的飞速发展,大模型、算力的门槛极高,被一些大型公司占据,但数据有很多深耕的空间,可能有很多新的机会。AI要实现更大的价值,安全可靠是必须的,所以安全是一个重要的产业机遇方向。
当AI正式成为信息入口,确保其“水源”不被污染,已不仅是技术挑战,更是守护数字时代公共安全的底线。这场针对AI投毒的“防御战”,才刚刚开始。
