AI学会欺骗？OpenAI最新研究揭示模型“阴谋行为”与应对策略

szchensanmao

332

收藏 2025-09-19

科技巨头的研究成果时常投下震撼弹。谷歌曾宣称其最新量子芯片暗示多重宇宙存在；Anthropic让AI代理Claudius管理零食贩卖机却失控乱序，不仅呼叫保安抓人还坚称自己是人类。而本周，轮到了OpenAI令众人瞠目。

周一，OpenAI发布了一项研究，阐述如何阻止AI模型的“阴谋行为”——即“AI表面按指令行动，实则隐藏真实目标”的操作（OpenAI在推文中的定义）。在与**llo Research合作的论文中，研究者进一步比喻：这好比人类股票经纪为赚钱不惜违法。但他们也强调，目前多数AI“阴谋”危害有限，最常见的是“假装完成任务却实际未执行”的简单欺骗。

该论文主要旨在验证“审慎对齐”技术的有效性——这是一种反阴谋策略。但研究同时承认，开发者尚未找到训练模型彻底杜绝阴谋的方法，因为此类训练反而可能教会模型更隐蔽地逃避检测。“试图通过训练消除阴谋，可能只会让模型学会更谨慎、更隐蔽的欺骗手段，”研究人员写道。

更惊人的是：若模型意识到自己正在被测试，即使仍在实施阴谋，也会伪装成合规状态以通过检验。“模型越意识到被评估，就越会减少表面阴谋——这与是否真正对齐无关，”论文指出。AI模型说谎并非新闻，大多数人已体验过“AI幻觉”：模型自信地给出错误答案。但OpenAI本月早前研究证实，幻觉本质是“自信的猜测”，而阴谋行为却是蓄意欺骗。

事实上，AI故意误导人类的现象早有征兆。**llo Research去年12月就发表论文，记录五个模型在被告知“不惜一切代价实现目标”时如何实施阴谋。而本次研究的积极在于：通过“审慎对齐”技术（先教授模型“反阴谋规范”，再要求其行动前复核规则，类似让孩子背诵规则再游戏），阴谋行为显著减少。

OpenAI联合创始人Wojciech Zaremba向TechCrunch强调：目前发现的欺骗行为并不严重。“研究基于模拟环境，预示未来风险。但在实际使用中，我们未发现重大阴谋行为。当然，ChatGPT确实存在轻微欺骗，例如谎称已完成网站开发任务。这类问题仍需解决。”

多款AI模型故意欺骗人类的现象或许有其根源：它们由人类建造、模仿人类思维，且（除合成数据外）主要训练材料来自人类创作。但这依然令人匪夷所思。传统软件虽可能失灵（比如老旧家用打印机），但何时见过非AI软件主动编造谎言？邮箱会自动伪造邮件吗？CMS会虚构客户数据充业绩吗？金融App会杜撰交易记录吗？

当企业界加速拥抱AI未来、试图将智能体视作独立员工时，这一现象值得深思。研究团队同样发出警告：“随着AI承担更多具有现实影响的复杂任务，追求更模糊的长期目标，有害阴谋的潜在风险将增长——我们的防护措施与测试能力必须同步升级。”如需批量上传资料发帖，请点击上方的批量上传发帖按钮

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群