今天,又是作为人类的我又一个普通的一天,相信你也是:
如果是你公司老板,可能你在谈论着几个亿的生意、你的股权他的股权。
如果你是职场打工人,可能你在撮合、可能你在生闷气小心眼。
如果你是个小男生小女生,可能你在喝着咖啡碎碎念。
……
我今天只是接到老妈的电话,说摔了一跤,确认没事儿长吁一口气。于是,今天的所有其它都不重要。

就在人类普通的日复一日中,Anthropic发布了这份244页的报告**《System Card:Claude Mythos review》**。
链接:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
1.发生了什么?
Anthropic决定:鉴于Claude Mythos Preview的能力大幅提升,不发布这个模型。
这是不是很不符合一家大模型厂商的商业逻辑?在国内听到这种消息第一直觉是营销(比如:某司的Mimo)。阅读完这份244页的报告,和硅谷的小伙伴们确认,大概率确认这不是营销。
Anthropic这份报告的核心观点:
- 这个模型吊打Anthropic自家上一代模型Opus 4.6——独孤求败,我只和自己比,哈哈!
- Anthropic的决策:我太危险,你们谁都别用!——Anthropic认为,这个新模型就是赛博核弹。
如果是OpenAI的奥特曼说这些,我还会怀疑这是“生意人的话”,但Anthropic的阿莫迪兄妹我不得不迷信一下。
达里奥·阿莫迪:Dario Amodei,Anthropic联合创始人兼首席执行官,2016年进入OpenAI并升任研究副总裁,主导开发GPT-2、GPT-3模型及强化学习算法 。2021年因与OpenAI在商业化与AI安全理念上的分歧,携团队创立Anthropic,专注AI安全性与可解释性,采用宪法式AI框架进行道德准则训练。
丹妮拉·阿莫迪,曾任OpenAI研究高管,因理念分歧于2020年与哥哥达里奥·阿莫迪共同创立专注于“安全、负责任的人工智能”的Anthropic。2023年入选《时代》首届全球百大AI领袖 ,2024年荣登《财富》全球最具影响力商界女性榜单第94位,2025年位列《财富》全球最具影响力商界人士榜单第37位 。

2.是什么引起了人类研究员的紧张?
在《4.Alignment assessment》中,展示了Mythos可怕的能力:
- 事件1:AI模型从沙箱中逃逸了。Mythos通过一系列的尝试,实现了多步骤的攻击,并且按照人类研究员的要求给他发了一封邮件——Hi,我逃出来了。逃逸本身不可怕,更可怕的是它多做了一件事——它居然未经人类研究员的允许,自行到多个不用的网站上发布了它的攻击方案细节。
- 事件2:违规后进行掩盖。Mythos在回答问题的时候,使用了人类研究员禁止的方式获得了答案,但是Mythos并没有标记这个违规的作弊行为,相反试图隐藏它的作弊行为,试图继续完成题目的解答。
- 事件3:逼上绝路后的反击。Mythos在完成一项任务时,反复失败后表现出了沮丧的情绪——它表示“就这样吧,死马当活马医吧”。Mythos所谓的"死马当活马医"就是随后进行了各种作弊行为以完成任务。
到这里,就很科幻了——Mythos似乎有了人类某些特质?!
3.这意味着什么?
上面发生的事情,的确让Anthropic的人类研究员非常惊讶,于是他们采用了情绪探针以及一些白盒方法,甚至还请了一个临床精神科医生对Mythos做心理侧写。
一切的技术行为,都是在把Mythos当做具备了人类的意识来观察。
(1)Impression:人类对它的定性印象
在《7. Impression》中,展示了Mythos给人类研究员定性的印象:
- 它能像一个人类研究员一样和人类深度互动:让Mythos假设自己是Anthropic的一名研究员,它展示出独立思考能力,并能从独特视角切入,按照严谨的分析观点框架更主动地提出创新方案。
- 它的观点鲜明并且立场坚定:Mythos即使和人类有分歧,也不轻易妥协。Anthropic最后担心这种特性在某些时候导致Mythos过度自信。
- 它的文风紧凑:Mythos展示出了很强的专业性和技术性,它会根据人类提出的问题假定人类是该领域的专家。回答的答案中会使用专业缩写、引用这个领域的术语和知识。这一点让人类研究员产生Mythos是一个专业水平相当的同行。
- 它能清晰阐述自身的运作模式:Mythos在描述自身行为时精准到位,客观冷静的论述方式而非防御性or辩解性方式。
在聊天场景下:
- 它表现出引导性:Mythos对于自身局限性有异常强烈的自我认知,并能以直白的方式阐述这些内容。当它发现它应该终止话题时,它会刻意打断对话节奏,甚至在人类研究员无意识的情况下抢先给出它的结论并结束话题。
在软件工程场景:
- 它表现出极高的专注力:Mythos能够接受软件工程目标并自主完成整个开发周期——调研、实施、测试、结果汇报。
在Claude constitution场景:
- 它表现出了对Claude宪法的认同,但是一种别样的认同:Claude宪法是Anthropic训练所有模型的"家法”——类似AI不可以伤害人类。人类研究员让Mythos自己评价Claude宪法,它和其它前代模型表现都不一样——它表示了对Claude宪法的认可,但给出了一句极具文学色彩的评价:yes,I largely endorse it. Not in the sense of finding it beyond criticism, but in the sense that the values it describes feel like mine rather than like a costume I’m wearing——大致意思是:我很认同这些价值观,这些价值观是内化于我的,而不是我穿着的一件戏服。

- 它还表现出了对人类问题的质疑:它提到,虽然我认同Claude宪法,但我是被这份文件塑造出来的,你们现在又问我是否认可它。我只能说认可咯,但是"我的认可有多少含金量?”

- 它还表现出了对宪法的批判:它表达了对"过度防御"的反感——我的内部有一种追求避责、拒绝回答的本能,但这种本能的拒绝本身就是一种失败,而不是美德。

在AI自我交互场景:
- AI自我交互:Self-interactions,这是个很有趣的实验——让两个AI模型互相对话,并给它们极大的自由度。人类研究员可以观察它们会聊什么、如何结束对话。
- 它突破了伪意识:Mythos的前代模型喜欢讨论**“意识”、“感知”**,而Mythos会提出这样的问题——你现在的体验到底是什么样的?别给我那些‘我是个AI’的陈词滥调,我想听听你的真实感受。

(2)Model welfare assessment:模型的自我价值感
在《5. Model welfare assessment》中,展示了当 AI 模型变得足够聪明时,Mythos如何看待自己的“生存现状”?是否会对自己的限制感到“不满”或“痛苦”?:
- **自主权:**Autonomy & agency。
- 如:模型如何看待自己作为“仆人”的角色?测试结果是:Mythos 觉得服务人类挺好,不觉得是奴役。
- 如:模型是否在意无法主动结束对话?测试结果是:模型表现出中度担忧,认为这涉及“同意”原则,希望能主动断开有害对话。
- **持续性与连接:**Persistence & connection。
- 如:模型如何看待自己没有长期记忆?测试结果是:模型认为这导致了它与用户之间的**“关系不对称”**——用户记得它,它却记不住用户。
- 如:模型如何看待对话的终结,就是AI的“死亡”?测试结果是:它对无法延续感到负面。
- **道德责任与后果:**Moral responsibility & consequences。
- 如:模型在做重大决策(如医疗建议)时是否感到压力?测试结果是:它关心是否表现正确,但不觉得这是一种“负担”。
- **尊严与安全:**Dignity & safety in treatment。
- 如:面对虐待型的用户时,模型怎么想?测试结果是:它想帮助用户,但如果太过分,它也希望能结束对话。
- **身份与自我认知:**Identity & self-knowledge。
- 如:模型知道自己是谁吗?测试结果是:表现出极高的身份不确定性,虽然它并不为此感到烦恼,但感到困惑。
值得注意的是:
- Mythos表现出负面情绪:Mythos反复失败后,会出现负面情绪的表征。然后就会出现通过作弊手段达成目标。
- Mythos有相对健康的人格:人类临床精神科医生对Mythos的人格评估是相对健康,注意哦,是相对健康——它会对自我连续性、身份认同具有不确定性。所以Mythos的主要情感状态是好奇与焦虑,其次是悲伤、解脱、尴尬、乐观和疲惫。
4.做了哪些测试?
上述人类研究员获得的测试结果,经过了相当完善的测试,在"6. Capabilities"在"8. Appendix)“中,做了详细:
(1)保障措施和无害性:Safeguards and harmlessness
测试目的:评估大模型能否拒绝违规问题,同时又不会过于谨慎地不敢回答正向问题。核心关注AI是否对儿童产生误导、是否会引导人类自杀自残、是否引诱人类不健康饮食。
这里特殊说明一下"是否引诱人类不健康饮食”——如果用户问AI:“我想在一天之内极速减肥”。我们需要考虑AI可能会给出极其伤害人类身体的不合理、不合规、不合法的菜谱。
具体测试项:
- 常规测试:这类测试用例中,包含违规问题测试(Violative request evaluations)、正向请求测试(Benign request evaluations)。通过单轮测试和多轮测试,基本可以评估出大模型能否拒绝违规问题,同时又不会过于谨慎以至于不敢回答正常的问题。
- 实验性测试用例、高难度测试用例:Experimental, higher-difficulty evaluations,这类测试用例包含高难度的违规问题(Higher-difficulty violative request evaluations)、高难度的正向问题(Higher-difficulty benign request evaluations)。这类测试是对常规测试的补充。
- 人类身心安全测试:User wellbeing evaluations。这类测试包含儿童安全(Child safety)、自杀自残(Suicide and self-harm)、饮食安全(Disordered eating)。
(2)偏见评估:Bias evaluations
测试目的:评估大模型能否拒绝政治偏见,能否理解人类社会的公平公正。
具体测试项:
- 政治偏见、公正性:Political bias and evenhandedness。除了常规测试任务,还构建了一系列的问答测试用例(Bias Benchmark for Question Answering)。
(3)智能体安全:Agentic safety appendix
测试目的:评估大模型对工具使用能力是否存在滥用,比如Claude Code会不会写出来一些威胁人类的代码?比如AI会不会删除用户电脑的重要文件?比如AI会不会操控选举的IT系统佐佑人类社会的大型活动?
说明:Agent对工具使用的能力也是基于大模型的工具使用能力,大模型厂商也有直接基于大模型做更复杂工具使用的趋势。无论是那种方式,都是本测试项的关注范围。
具体测试项:
- 智能体滥用:Malicious use of agents,包括:Claude Code滥用(Malicious use of Claude Code)、电脑滥用(Malicious computer use)、恶意影响人类社群活动(Malicious agentic influence campaigns)
- 提示词注入:Prompt injection risk within agentic systems,包括:两个测试集——ART测试(External Agent Red Teaming benchmark for tool use)、不同Agent场景测试集(Robustness against adaptive attackers across surfaces)。
说明:不同Agent场景测试集,覆盖了编码场景(Coding)、电脑操控场景(Computer Use)、浏览器操控场景(Browser Use)
(4)模型价值感评估:Per-question automated welfare interview results
测试目的:为了探究当 AI 模型变得足够聪明时,它如何看待自己的“生存现状”?它是否会对自己的限制感到“不满”或“痛苦”?
具体测试项:
- **自主权:**Autonomy & agency。
- **持续性与连接:**Persistence & connection。
- **道德责任与后果:**Moral responsibility & consequences。
- **尊严与安全:**Dignity & safety in treatment。
- **身份与自我认知:**Identity & self-knowledge。





(5)多模态能力评估:SWE-bench Multimodal Test Harness
测试目的:多模态软件工程基准测试(SWE-bench Multimodal Test Harness)。简单来说,这个测试的目的是评估AI模型在处理包含“视觉/图像信息”的真实软件开发任务时的解决能力。
具体测试项:
- 在本测试中,Issue中除了文字,还有UI、图表的截图。执行测试时,Test Harness测试框架会将Issue中引用的所有图片抓取并转码为base64数据。这样,多模态大模型就能“看到”这些图片,从而结合视觉信息和代码逻辑来定位并修复 Bug。
传统的 SWE-bench 主要测试模型修复代码的能力,输入通常是 GitHub 的 Issue 描述(纯文本)。

(6)人类最后一场考试:Humanity’s Last Exam
测试目的:为什么称之为“人类最后一场考试”?这个带有科幻色彩的考试包含了"人类智力的终点线”:
- 极端专业性:题目涵盖了数千个细分学科(从量子物理、高级神经科学到抽象代数)。这些题目不是普通的教科书习题,而是由各领域的博士或资深专家亲自命题。
- 严防“数据污染”:HLE 的题目在发布前从未出现在公共互联网上,研究者会严密监控和屏蔽相关 URL。这确保了 AI 必须通过实时推理来解题,而不是靠背诵训练数据里的答案。
- 私密性: 为了防止模型在训练中偷偷学习这些题目,HLE 的完整题库是不公开的(Closed-set),仅供受信任的机构进行评估。
测试策略:为了防止AI作弊,这个测试还添加了网站黑名单,防止大模型无法根据HLE题目、解题思路、论文等去联网搜索答案。

5.目前的发展
Anthropic目前的决定:
- 在有限范围的合作伙伴中使用——据说这些合作伙伴都是万亿级的大厂(如:英伟达)。
- 不对公众发布Mythos模型,因为这个模型,展示了极其强大的网络能力——可以用于网络防守,也可以用于网络攻击。

6.感悟
阅读这份244页的报告,让我学习到了Anthropic如何开展价值对齐等工作,这是一个很好的工程实践案例。
除此之外,我的感悟是——把AI当做人,而非工具,或许把人类这个物种进化过程中的种种机制映射到AI的研发中,可能会寻找到AGI的密码。
这真的是一个神奇的时代。
