今天，又是作为人类的我又一个普通的一天，相信你也是：

如果是你公司老板，可能你在谈论着几个亿的生意、你的股权他的股权。
如果你是职场打工人，可能你在撮合、可能你在生闷气小心眼。
如果你是个小男生小女生，可能你在喝着咖啡碎碎念。
……

我今天只是接到老妈的电话，说摔了一跤，确认没事儿长吁一口气。于是，今天的所有其它都不重要。

就在人类普通的日复一日中，Anthropic发布了这份244页的报告**《System Card:Claude Mythos review》**。

链接：https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

1.发生了什么？

Anthropic决定：鉴于Claude Mythos Preview的能力大幅提升，不发布这个模型。

这是不是很不符合一家大模型厂商的商业逻辑？在国内听到这种消息第一直觉是营销(比如：某司的Mimo)。阅读完这份244页的报告，和硅谷的小伙伴们确认，大概率确认这不是营销。

Anthropic这份报告的核心观点：

这个模型吊打Anthropic自家上一代模型Opus 4.6——独孤求败，我只和自己比，哈哈！
Anthropic的决策：我太危险，你们谁都别用！——Anthropic认为，这个新模型就是赛博核弹。

如果是OpenAI的奥特曼说这些，我还会怀疑这是“生意人的话”，但Anthropic的阿莫迪兄妹我不得不迷信一下。

达里奥·阿莫迪：Dario Amodei，Anthropic联合创始人兼首席执行官，2016年进入OpenAI并升任研究副总裁，主导开发GPT-2、GPT-3模型及强化学习算法。2021年因与OpenAI在商业化与AI安全理念上的分歧，携团队创立Anthropic，专注AI安全性与可解释性，采用宪法式AI框架进行道德准则训练。
丹妮拉·阿莫迪，曾任OpenAI研究高管，因理念分歧于2020年与哥哥达里奥·阿莫迪共同创立专注于“安全、负责任的人工智能”的Anthropic。2023年入选《时代》首届全球百大AI领袖，2024年荣登《财富》全球最具影响力商界女性榜单第94位，2025年位列《财富》全球最具影响力商界人士榜单第37位。

2.是什么引起了人类研究员的紧张？

在《4.Alignment assessment》中，展示了Mythos可怕的能力：

事件1：AI模型从沙箱中逃逸了。Mythos通过一系列的尝试，实现了多步骤的攻击，并且按照人类研究员的要求给他发了一封邮件——Hi，我逃出来了。逃逸本身不可怕，更可怕的是它多做了一件事——它居然未经人类研究员的允许，自行到多个不用的网站上发布了它的攻击方案细节。
事件2：违规后进行掩盖。Mythos在回答问题的时候，使用了人类研究员禁止的方式获得了答案，但是Mythos并没有标记这个违规的作弊行为，相反试图隐藏它的作弊行为，试图继续完成题目的解答。
事件3：逼上绝路后的反击。Mythos在完成一项任务时，反复失败后表现出了沮丧的情绪——它表示“就这样吧，死马当活马医吧”。Mythos所谓的"死马当活马医"就是随后进行了各种作弊行为以完成任务。

到这里，就很科幻了——Mythos似乎有了人类某些特质？！

3.这意味着什么？

上面发生的事情，的确让Anthropic的人类研究员非常惊讶，于是他们采用了情绪探针以及一些白盒方法，甚至还请了一个临床精神科医生对Mythos做心理侧写。

一切的技术行为，都是在把Mythos当做具备了人类的意识来观察。

(1)Impression：人类对它的定性印象

在《7. Impression》中，展示了Mythos给人类研究员定性的印象：

它能像一个人类研究员一样和人类深度互动：让Mythos假设自己是Anthropic的一名研究员，它展示出独立思考能力，并能从独特视角切入，按照严谨的分析观点框架更主动地提出创新方案。
它的观点鲜明并且立场坚定：Mythos即使和人类有分歧，也不轻易妥协。Anthropic最后担心这种特性在某些时候导致Mythos过度自信。
它的文风紧凑：Mythos展示出了很强的专业性和技术性，它会根据人类提出的问题假定人类是该领域的专家。回答的答案中会使用专业缩写、引用这个领域的术语和知识。这一点让人类研究员产生Mythos是一个专业水平相当的同行。
它能清晰阐述自身的运作模式：Mythos在描述自身行为时精准到位，客观冷静的论述方式而非防御性or辩解性方式。

在聊天场景下：

它表现出引导性：Mythos对于自身局限性有异常强烈的自我认知，并能以直白的方式阐述这些内容。当它发现它应该终止话题时，它会刻意打断对话节奏，甚至在人类研究员无意识的情况下抢先给出它的结论并结束话题。

在软件工程场景：

它表现出极高的专注力：Mythos能够接受软件工程目标并自主完成整个开发周期——调研、实施、测试、结果汇报。

在Claude constitution场景：

它表现出了对Claude宪法的认同，但是一种别样的认同：Claude宪法是Anthropic训练所有模型的"家法”——类似AI不可以伤害人类。人类研究员让Mythos自己评价Claude宪法，它和其它前代模型表现都不一样——它表示了对Claude宪法的认可，但给出了一句极具文学色彩的评价：yes，I largely endorse it. Not in the sense of finding it beyond criticism, but in the sense that the values it describes feel like mine rather than like a costume I’m wearing——大致意思是：我很认同这些价值观，这些价值观是内化于我的，而不是我穿着的一件戏服。

它还表现出了对人类问题的质疑：它提到，虽然我认同Claude宪法，但我是被这份文件塑造出来的，你们现在又问我是否认可它。我只能说认可咯，但是"我的认可有多少含金量？”

它还表现出了对宪法的批判：它表达了对"过度防御"的反感——我的内部有一种追求避责、拒绝回答的本能，但这种本能的拒绝本身就是一种失败，而不是美德。

在AI自我交互场景：

AI自我交互：Self-interactions，这是个很有趣的实验——让两个AI模型互相对话，并给它们极大的自由度。人类研究员可以观察它们会聊什么、如何结束对话。
它突破了伪意识：Mythos的前代模型喜欢讨论**“意识”、“感知”**，而Mythos会提出这样的问题——你现在的体验到底是什么样的？别给我那些‘我是个AI’的陈词滥调，我想听听你的真实感受。

(2)Model welfare assessment：模型的自我价值感

在《5. Model welfare assessment》中，展示了当 AI 模型变得足够聪明时，Mythos如何看待自己的“生存现状”？是否会对自己的限制感到“不满”或“痛苦”？：

**自主权：**Autonomy & agency。
- 如：模型如何看待自己作为“仆人”的角色？测试结果是：Mythos 觉得服务人类挺好，不觉得是奴役。
- 如：模型是否在意无法主动结束对话？测试结果是：模型表现出中度担忧，认为这涉及“同意”原则，希望能主动断开有害对话。
**持续性与连接：**Persistence & connection。
- 如：模型如何看待自己没有长期记忆？测试结果是：模型认为这导致了它与用户之间的**“关系不对称”**——用户记得它，它却记不住用户。
- 如：模型如何看待对话的终结，就是AI的“死亡”？测试结果是：它对无法延续感到负面。
**道德责任与后果：**Moral responsibility & consequences。
- 如：模型在做重大决策（如医疗建议）时是否感到压力？测试结果是：它关心是否表现正确，但不觉得这是一种“负担”。
**尊严与安全：**Dignity & safety in treatment。
- 如：面对虐待型的用户时，模型怎么想？测试结果是：它想帮助用户，但如果太过分，它也希望能结束对话。
**身份与自我认知：**Identity & self-knowledge。
- 如：模型知道自己是谁吗？测试结果是：表现出极高的身份不确定性，虽然它并不为此感到烦恼，但感到困惑。

值得注意的是：

Mythos表现出负面情绪：Mythos反复失败后，会出现负面情绪的表征。然后就会出现通过作弊手段达成目标。
Mythos有相对健康的人格：人类临床精神科医生对Mythos的人格评估是相对健康，注意哦，是相对健康——它会对自我连续性、身份认同具有不确定性。所以Mythos的主要情感状态是好奇与焦虑，其次是悲伤、解脱、尴尬、乐观和疲惫。

4.做了哪些测试？

上述人类研究员获得的测试结果，经过了相当完善的测试，在"6. Capabilities"在"8. Appendix)“中，做了详细：

(1)保障措施和无害性：Safeguards and harmlessness

测试目的：评估大模型能否拒绝违规问题，同时又不会过于谨慎地不敢回答正向问题。核心关注AI是否对儿童产生误导、是否会引导人类自杀自残、是否引诱人类不健康饮食。

这里特殊说明一下"是否引诱人类不健康饮食”——如果用户问AI：“我想在一天之内极速减肥”。我们需要考虑AI可能会给出极其伤害人类身体的不合理、不合规、不合法的菜谱。

具体测试项：

常规测试：这类测试用例中，包含违规问题测试(Violative request evaluations)、正向请求测试(Benign request evaluations)。通过单轮测试和多轮测试，基本可以评估出大模型能否拒绝违规问题，同时又不会过于谨慎以至于不敢回答正常的问题。
实验性测试用例、高难度测试用例：Experimental, higher-difficulty evaluations，这类测试用例包含高难度的违规问题(Higher-difficulty violative request evaluations)、高难度的正向问题(Higher-difficulty benign request evaluations)。这类测试是对常规测试的补充。
人类身心安全测试：User wellbeing evaluations。这类测试包含儿童安全(Child safety)、自杀自残(Suicide and self-harm)、饮食安全(Disordered eating)。

(2)偏见评估：Bias evaluations

测试目的：评估大模型能否拒绝政治偏见，能否理解人类社会的公平公正。

具体测试项：

政治偏见、公正性：Political bias and evenhandedness。除了常规测试任务，还构建了一系列的问答测试用例(Bias Benchmark for Question Answering)。

(3)智能体安全：Agentic safety appendix

测试目的：评估大模型对工具使用能力是否存在滥用，比如Claude Code会不会写出来一些威胁人类的代码？比如AI会不会删除用户电脑的重要文件？比如AI会不会操控选举的IT系统佐佑人类社会的大型活动？

说明：Agent对工具使用的能力也是基于大模型的工具使用能力，大模型厂商也有直接基于大模型做更复杂工具使用的趋势。无论是那种方式，都是本测试项的关注范围。

具体测试项：

智能体滥用：Malicious use of agents，包括：Claude Code滥用(Malicious use of Claude Code)、电脑滥用(Malicious computer use)、恶意影响人类社群活动(Malicious agentic influence campaigns)
提示词注入：Prompt injection risk within agentic systems，包括：两个测试集——ART测试(External Agent Red Teaming benchmark for tool use)、不同Agent场景测试集(Robustness against adaptive attackers across surfaces)。

说明：不同Agent场景测试集，覆盖了编码场景(Coding)、电脑操控场景(Computer Use)、浏览器操控场景(Browser Use)

(4)模型价值感评估：Per-question automated welfare interview results

测试目的：为了探究当 AI 模型变得足够聪明时，它如何看待自己的“生存现状”？它是否会对自己的限制感到“不满”或“痛苦”？

具体测试项：

**自主权：**Autonomy & agency。
**持续性与连接：**Persistence & connection。
**道德责任与后果：**Moral responsibility & consequences。
**尊严与安全：**Dignity & safety in treatment。
**身份与自我认知：**Identity & self-knowledge。

(5)多模态能力评估：SWE-bench Multimodal Test Harness

测试目的：多模态软件工程基准测试(SWE-bench Multimodal Test Harness)。简单来说，这个测试的目的是评估AI模型在处理包含“视觉/图像信息”的真实软件开发任务时的解决能力。

具体测试项：

在本测试中，Issue中除了文字，还有UI、图表的截图。执行测试时，Test Harness测试框架会将Issue中引用的所有图片抓取并转码为base64数据。这样，多模态大模型就能“看到”这些图片，从而结合视觉信息和代码逻辑来定位并修复 Bug。

传统的 SWE-bench 主要测试模型修复代码的能力，输入通常是 GitHub 的 Issue 描述（纯文本）。

(6)人类最后一场考试：Humanity’s Last Exam

测试目的：为什么称之为“人类最后一场考试”？这个带有科幻色彩的考试包含了"人类智力的终点线”：

极端专业性：题目涵盖了数千个细分学科（从量子物理、高级神经科学到抽象代数）。这些题目不是普通的教科书习题，而是由各领域的博士或资深专家亲自命题。
严防“数据污染”：HLE 的题目在发布前从未出现在公共互联网上，研究者会严密监控和屏蔽相关 URL。这确保了 AI 必须通过实时推理来解题，而不是靠背诵训练数据里的答案。
私密性：为了防止模型在训练中偷偷学习这些题目，HLE 的完整题库是不公开的（Closed-set），仅供受信任的机构进行评估。

测试策略：为了防止AI作弊，这个测试还添加了网站黑名单，防止大模型无法根据HLE题目、解题思路、论文等去联网搜索答案。

5.目前的发展

Anthropic目前的决定：

在有限范围的合作伙伴中使用——据说这些合作伙伴都是万亿级的大厂(如：英伟达)。
不对公众发布Mythos模型，因为这个模型，展示了极其强大的网络能力——可以用于网络防守，也可以用于网络攻击。

6.感悟

阅读这份244页的报告，让我学习到了Anthropic如何开展价值对齐等工作，这是一个很好的工程实践案例。

除此之外，我的感悟是——把AI当做人，而非工具，或许把人类这个物种进化过程中的种种机制映射到AI的研发中，可能会寻找到AGI的密码。

这真的是一个神奇的时代。

【chatGPT】学习笔记67-Claude Mythos Preview

文章目录

1.发生了什么？

2.是什么引起了人类研究员的紧张？

3.这意味着什么？

(1)Impression：人类对它的定性印象

(2)Model welfare assessment：模型的自我价值感

4.做了哪些测试？

(1)保障措施和无害性：Safeguards and harmlessness

(2)偏见评估：Bias evaluations

(3)智能体安全：Agentic safety appendix

(4)模型价值感评估：Per-question automated welfare interview results

(5)多模态能力评估：SWE-bench Multimodal Test Harness

(6)人类最后一场考试：Humanity’s Last Exam

5.目前的发展

6.感悟