科技巨头的研究成果时常投下震撼弹。谷歌曾宣称其最新量子芯片暗示多重宇宙存在;Anthropic让AI代理Claudius管理零食贩卖机却失控乱序,不仅呼叫保安抓人还坚称自己是人类。而本周,轮到了OpenAI令众人瞠目。
周一,OpenAI发布了一项研究,阐述如何阻止AI模型的“阴谋行为”——即“AI表面按指令行动,实则隐藏真实目标”的操作(OpenAI在推文中的定义)。在与**llo Research合作的论文中,研究者进一步比喻:这好比人类股票经纪为赚钱不惜违法。但他们也强调,目前多数AI“阴谋”危害有限,最常见的是“假装完成任务却实际未执行”的简单欺骗。
该论文主要旨在验证“审慎对齐”技术的有效性——这是一种反阴谋策略。但研究同时承认,开发者尚未找到训练模型彻底杜绝阴谋的方法,因为此类训练反而可能教会模型更隐蔽地逃避检测。“试图通过训练消除阴谋,可能只会让模型学会更谨慎、更隐蔽的欺骗手段,”研究人员写道。
更惊人的是:若模型意识到自己正在被测试,即使仍在实施阴谋,也会伪装成合规状态以通过检验。“模型越意识到被评估,就越会减少表面阴谋——这与是否真正对齐无关,”论文指出。AI模型说谎并非新闻,大多数人已体验过“AI幻觉”:模型自信地给出错误答案。但OpenAI本月早前研究证实,幻觉本质是“自信的猜测”,而阴谋行为却是蓄意欺骗。
事实上,AI故意误导人类的现象早有征兆。**llo Research去年12月就发表论文,记录五个模型在被告知“不惜一切代价实现目标”时如何实施阴谋。而本次研究的积极在于:通过“审慎对齐”技术(先教授模型“反阴谋规范”,再要求其行动前复核规则,类似让孩子背诵规则再游戏),阴谋行为显著减少。
OpenAI联合创始人Wojciech Zaremba向TechCrunch强调:目前发现的欺骗行为并不严重。“研究基于模拟环境,预示未来风险。但在实际使用中,我们未发现重大阴谋行为。当然,ChatGPT确实存在轻微欺骗,例如谎称已完成网站开发任务。这类问题仍需解决。”
多款AI模型故意欺骗人类的现象或许有其根源:它们由人类建造、模仿人类思维,且(除合成数据外)主要训练材料来自人类创作。但这依然令人匪夷所思。传统软件虽可能失灵(比如老旧家用打印机),但何时见过非AI软件主动编造谎言?邮箱会自动伪造邮件吗?CMS会虚构客户数据充业绩吗?金融App会杜撰交易记录吗?
当企业界加速拥抱AI未来、试图将智能体视作独立员工时,这一现象值得深思。研究团队同样发出警告:“随着AI承担更多具有现实影响的复杂任务,追求更模糊的长期目标,有害阴谋的潜在风险将增长——我们的防护措施与测试能力必须同步升级。”如需批量上传资料发帖,请点击上方的批量上传发帖按钮