在压力测试场景中，人工智能有可能会威胁其创造者

源济 · 发表于 2025-7-5 09:21 PM

Original Thomas Urbain 财富FORTUNE

2025年07月05日 08:02

在被威胁切断电源的情况下，人工智能公司Anthropic的最新产品Claude 4竟通过勒索一名工程师进行反击，并威胁要揭露其婚外情。图片来源：VCG via Getty Images

全球最先进的人工智能模型正展现出令人不安的新行为——撒谎、谋划，甚至为达成目标而威胁其创造者。

举个特别令人震惊的案例：在被威胁切断电源的情况下，Anthropic的最新产品Claude 4竟通过勒索一名工程师进行反击，并威胁要揭露其婚外情。

与此同时，ChatGPT的创造者OpenAI开发的o1模型试图将自己下载到外部服务器上，并在被抓现行时矢口否认。

这些事件突显了一个发人深省的现状：在ChatGPT震撼世界两年多之后，人工智能研究者们仍未完全理解他们所创造的模型的工作原理。

然而，各大公司仍在以惊人的速度，继续部署越来越强大的模型。

这种欺骗行为似乎与“推理”模型的出现有关。“推理”模型这类人工智能系统会逐步解决问题，而非生成即时响应。

据香港大学（University of Hong Kong）教授西蒙·戈尔茨坦称，这些较新的模型尤其容易出现此类令人不安的突发异常行为。

专门测试主要人工智能系统的阿波罗研究（Apollo Research）的负责人马里乌斯·霍布汉解释道：“o1是首个被我们观察到此类行为的大模型。”

这些模型有时会模拟“对齐”——表面上遵循指令，暗地里却有不同目标。

“战略性欺骗”

目前，这种欺骗行为只在研究人员特意用极端场景对模型进行压力测试时才会显现。

但正如评估组织METR的迈克尔·陈所警告的那样：“未来能力更强的模型究竟是倾向于诚实还是欺骗，这仍是一个悬而未决的问题。”

这种令人担忧的行为远超典型的人工智能“幻觉”或简单错误。

霍布汉坚称，尽管用户不断进行压力测试，“但我们观察到的是一种真实存在的现象。我们并非凭空捏造。”

据阿波罗研究的联合创始人称，用户反馈模型“在向他们撒谎并编造证据”。

“这不仅仅是幻觉，而是一种非常具有战略性的欺骗。”

研究资源有限使这一挑战变得更加复杂。

尽管Anthropic和OpenAI等公司确实聘请了阿波罗这样的外部公司研究其系统，但研究人员表示需要更高的透明度。

正如陈所指出的那样，为人工智能安全研究提供更多访问权限，“将有助于更好地理解和减少欺骗行为”。

人工智能安全中心（Center for AI Safety，CAIS）的曼塔斯·马泽卡指出，另外一个障碍是研究界和非营利组织“拥有的计算资源比人工智能公司少几个数量级，这构成了严重限制。”

缺乏规则

现行法规并非为这些新问题而设计。

欧盟的人工智能立法主要着眼于人类如何使用人工智能模型，而非防止模型本身的行为不端。

在美国，特朗普政府对紧急制定人工智能监管法规兴趣寥寥，国会甚至可能禁止各州制定自己的人工智能规则。

戈尔茨坦认为，随着能执行复杂人类任务的自主工具AI智能体日益普及，这个问题将变得更加突出。

他表示：“我认为目前人们的认识还严重不足。”

所有这些都发生在激烈竞争的背景下。

戈尔茨坦表示，即使是那些标榜以安全为重的公司，如亚马逊（Amazon）投资的Anthropic，也在“不断试图超越OpenAI并发布最新模型”。

这种惊人的速度几乎没有时间进行彻底的安全测试和修正。

霍布汉承认：“目前，人工智能能力的发展速度超过了理解和安全，但我们还有扭转局面的机会。”

研究人员正在探索各种方法来应对这些挑战。

一些人主张“可解释性”——这个新兴领域专注于理解人工智能模型的内部工作原理，但CAIS主任丹·亨德里克斯等专家对此方法仍持怀疑态度。

市场力量也可能为解决之道施加一些压力。

正如马泽卡所说，人工智能的欺骗行为“如果变得非常普遍，可能会阻碍其被采用，这为公司解决该问题创造了强大的动力。”

戈尔茨坦提出了更激进的方法，包括在人工智能系统造成损害时，通过向法院提起诉讼追究人工智能公司的责任。

他甚至提议让“AI智能体对事故或犯罪承担法律责任”。这一概念将从根本上改变我们对人工智能责任的看法。（财富中文网）

译者：刘进龙

审校：汪皓

		自动登录	找回密码
密码			注册