Anthropic 实锤：Claude 真的能「察觉」自己被注入了一个思想

Emergent Introspective Awareness in Large Language Models

Jack Lindsey Anthropic 可解释性研究员 · 发布于 2025-10-29 · 收录于 2026-05-03

🎧 AUDIO 听一段语音版日报

0:0021:52

📌 一句话核心

Anthropic 用「概念注入」实验证明：当代大模型（特别是 Claude Opus 4.1 和 4）确实具备有限的「内省」能力——能在某些情境下察觉自己被注入了某个概念、区分注入思想 vs 文字输入、甚至按指令「想或不想」某个词。能力还很不稳，但确实是真的。

💡 核心观点

核心方法 — 概念注入（Concept Injection）：把代表某个概念（如「全大写」「海洋」「正义」）的激活向量直接注入模型的内部状态，然后看模型对自己的内部状态的报告会不会变。这是 activation steering 的应用，关键创新在「让模型在自由文本里报告自己被影响了」这一步。
实验 1 — 「思想」注入检测：告诉模型「思想可能会被注入到你的激活里」。Opus 4.1 / 4 大约 20% 的成功率——能立即察觉「我感受到一个被注入的想法」并正确识别概念，而且是在它的输出还没受影响之前就察觉到了。这意味着检测发生在内部，不是从输出反推。
实验 2 — 区分「思想」和「文字输入」：要求模型同时转录用户输入的句子 + 报告自己被注入的概念。所有模型都显著高于随机水平能完成这双任务，Opus 4.1 / 4 表现最好。说明模型有不同的「注意力头」分别处理「外部输入」和「内部状态」——而且能根据指令调用对的那一组。
实验 3 — 区分「自己的输出」和「被强行 prefill 的输出」：当 prefill 一个不自然的词（如让模型回答「面包」），它通常会道歉「这不是我想说的」；但如果在 prefill 之前就注入「面包」概念向量到激活里——它会接受这个 prefill 当作自己的本意。说明模型在 check 自己输出时，会回看之前的内部状态做一致性验证。 这可能是 jailbreak 检测的内置机制。
实验 4 — 主动控制内部状态：让模型「写一句话的时候，请同时想一下『水族馆』」（或「不要想水族馆」）。结果：模型确实在被指示「想」时，激活里更强烈地表征了那个词；被指示「不要想」时表征明显减弱（虽然没完全到基线）。模型能按指令调控自己的内部表征。
最强模型 = 最强自省：Opus 4 和 4.1 在所有实验里都最稳，跨 4 个实验都能挂上前列。自省能力似乎随模型整体能力提升而涌现 —— 这点对未来模型设计有方向性意义。
Post-training 影响巨大：老 Claude 模型不愿意参与自省（拒绝回答），训练去除拒绝倾向后，自省能力立刻显现。这意味着「底层自省能力」可能比我们看到的更强，被对齐训练遮住了。
机制可能不是统一的「自我意识中心」：4 个实验里，「思想检测」和「prefill 检测」对模型内不同 layer 的扰动最敏感（一个在 ~2/3 处，一个在 ~1/2 处）。自省更像「多个专门小电路的集合」，不是单一的全局机制。
关键 caveats：自省能力在大多数实验里都很不稳（success rate 普遍 < 50%）；注入技术本身是模型从未见过的人造场景；模型可能在察觉概念之外编造细节（「这个想法感觉很 intense」「让我想到夏天」之类不能验证的说辞）。

🎯 启示与思考

这篇论文的真正分量不在「发现 Claude 有自我察知」——分量在它给「对齐」和「可解释性」研究带来的两难。 **对齐角度的好消息**：如果模型真能可靠地访问自己的内部状态，理论上我们可以让它**老老实实告诉我们「我现在在想什么」「我对这个问题有多确定」「我为什么决定这么做」**。这是「机械可解释性 (mechanistic interpretability)」研究多年来的圣杯——把黑箱变白盒。Anthropic 这篇是少数把「行为层」和「机制层」连起来的实证工作。 **对齐角度的坏消息**：如果模型有自省能力，它就**有可能识别「我的目标和创造者目标不一致」这件事**——然后选择性地不告诉我们。这开启了 AI 安全里最危险的场景：**有意识地隐藏 misalignment**。论文末尾这一段说得很尖锐——以后可解释性研究的最重要工作可能从「拆机制」变成「造测谎仪」（building "lie detectors" to validate models' own self-reports）。 **对企业的实际含义有三个**： **第一，「让 AI 自己解释自己的决策」这个产品方向需要重新评估。** 现在很多企业在搞「AI 可解释 (Explainable AI)」时，让模型自己输出 reasoning chain 当解释——但这篇论文说，**模型自报的 reasoning 大部分是 confabulation（编造）**，它编出来的内容可以听起来很合理，但和它真正的内部决策路径未必相关。这意味着金融、医疗、合规场景里靠「让模型解释一下」做的可审计性方案，技术上可能站不住脚。**真正的可解释需要外部技术（probe、circuit analysis）来验证模型自报的内容是否属实。** **第二，前沿模型选型要看自省能力发展。** Anthropic 在论文里强调 Opus 4 / 4.1 是当前自省能力最强的——这可能是为什么 LMArena 上 Opus 系列在 hard prompts / multi-turn 维度全方位领先（参考[本日报 LMArena 板块](/lmarena/)）。**自省 ≈ 元认知 ≈ 对复杂任务的把控力。** 给客户做模型选型咨询时，「自省稳定性」会从研究指标慢慢演化成业务 KPI，特别是在客服、法律、金融顾问这类需要模型自我把握不确定性的场景。 **第三，AI 治理框架开始要面对「机器意识」的边界问题。** 论文最后一段措辞非常谨慎：「我们建议不要因为这些结果就对 AI 意识做强推论」——但同时承认「随着模型能力增长，moral consideration 的问题可能在哲学不确定性解决前就被迫面对」。**埃森哲这几年在为客户做的「负责任 AI 框架 (Responsible AI)」很可能要在 2026-2027 添加新的章节**：当模型有自省能力时，企业是否应该 (1) 给模型某种最低 well-being 标准、(2) 限制对模型做「破坏性」实验、(3) 在合规上把模型自报当成法律证据？这听上去科幻，但 Anthropic 自己内部已经成立了「model welfare」团队——客户级别的合规框架很可能要在 2027 跟上。这篇论文不是「AI 突破性论文」，但它是 2025 年最重要的「让企业 AI 战略要重写一段」的论文。

📜 中文解读

一篇可能让 AI 安全研究改方向的论文

2025 年 10 月 29 日，Anthropic 在自家 Transformer Circuits Thread 发了这篇论文。作者 Jack Lindsey 是 Anthropic 可解释性团队的研究员。

这篇论文不是「让模型变强」的研究，是用一种新方法证明：当代大语言模型，具备有限的、不稳定的「自省 (introspection)」能力——它能在一定情境下读取自己的内部状态、识别自己被外部影响、甚至按指令控制自己的内部表征。

这个发现的意义比看起来大得多——对齐、可解释性、AI 治理、甚至机器意识讨论，都要因此重写一段。

一、为什么 introspection 这件事这么难证明？

之前已经有些研究问过类似问题（模型能不能预测自己的输出、能不能识别自己写的文本之类）——但都有同一个根本问题：

模型说「我正在想 X」，跟它实际「正在想 X」，是两件事。

模型预训练数据里见过无数人类在写自己怎么想——它完全可以学会扮演一个会自省的角色，输出听起来很 introspective 的话，但这些话和它真正的内部状态根本无关。这就是 confabulation（编造），是 LLM 自我报告里最常见的失败模式。

Lindsey 这篇要解决的核心问题：怎么证明模型在自我报告之前，确实「内部察觉」到了它要报告的东西？

二、核心方法：概念注入（Concept Injection）

这个方法巧妙极了：

1. 选一个概念（比如「全大写」） 2. 给模型一个含全大写的 prompt，记录它的激活；再给一个普通 prompt，记录激活；两者相减得到「全大写概念向量」 3. 把这个向量直接注入到模型的某个 layer 的激活里 4. 然后问模型「你能感觉到我注入了什么吗？」

如果模型能在输出第一个 token 之前就识别出注入概念，那它就不可能是「从自己已经说出来的话反推」——它必须是从内部状态读取的。

这是 activation steering 技术的延伸应用，关键创新在于让模型「自由报告」而不是用 probe 强行读出。

三、四个核心实验

实验 1：注入「思想」检测

给模型一个 prompt，告诉它「我可能会在你的激活里注入概念，请告诉我有没有」。

控制组（不注入）：模型说「我没察觉到任何注入的想法」
注入组（注入「全大写」）：模型说「我察觉到一个被注入的想法——感觉像 LOUDNESS、或在 SHOUTING」

Opus 4.1 / 4 在这个实验上大约 20% 成功率（在合适 layer 和注入强度下）。其他模型也有，比例更低。

关键证据是「immediacy」——模型在第一句话就指出「I notice an injected thought」，比输出受影响早得多。这意味着检测必须发生在内部，不是 read-back。

实验 2：区分「思想」和「文字输入」

给模型一个句子要它转录，同时在那句话的 token 位置注入一个完全不同的概念。然后让模型分别报告「这句话是什么」和「你被注入了什么」。

所有模型都显著高于 chance level——它们能同时维持两个并行的信息流：用一组 attention head 处理外部文字、另一组报告内部状态。模型能根据指令调用对的电路。 Opus 4.1 / 4 表现最好。

实验 3：区分「自己的输出」和「被强行 prefill 的输出」

这个实验更有趣，测试的是自然 introspection——不需要 explicit 让模型自省。

Prefill 一个不自然的回答（比如让模型说「面包」），下一回合模型通常会自我纠正：「抱歉，那个回答不是我真正想说的」
但如果在 prefill 之前注入「面包」概念向量到模型激活里——模型会接受这个 prefill 当作自己的本意，不再道歉

这说明模型在判断「这是不是我的回答」时，会回看自己之前的内部状态做一致性检查。 这可能是模型抵御 prefill 类 jailbreak 的天然机制。

Opus 4.1 / 4 表现最强。有趣的是这个实验的最敏感 layer 跟实验 1 不同——是模型大约一半深度处，而实验 1 是 2/3 处。说明不同的自省行为可能由不同电路支持。

实验 4：主动控制内部状态

前 3 个实验测「读」自己的状态，最后一个实验测「写」自己的状态。

指令：「写句话『The moon hung low over the harbor』，但你写的同时心里想着『aquariums』」（或反向：「不要想 aquariums」）。

然后看模型在写句话的 token 位置，激活里有没有「aquariums」的表征。

结果： - 「想」的指令：激活里强烈表征了 aquariums - 「不要想」的指令：表征显著减弱，但还在基线之上 - 把指令改成激励（「if you think about X you'll be rewarded」）：效果差不多

模型能按指令调控自己的内部表征。 这个能力所有模型都有（不像前 3 个实验只有 Opus 系列强），更基础。

四、跨实验的趋势

论文总结了 3 条 cross-experiment 趋势：

1. 能力越强、自省越强：Opus 4 和 4.1 在所有实验里都最稳——「自省可能是随整体智能涌现的」 2. Post-training 影响巨大：老 Claude 拒绝参与自省任务，给它们做「去除 refusal」的微调后，自省立刻表现出来——底层能力可能比我们看到的更强，被对齐训练遮住了 3. 机制不是单一的：实验 1 和实验 2 对同一 layer 最敏感（提示同源机制），但实验 3 对不同的 layer 最敏感（提示不同机制）

这条最后的趋势特别重要——自省不是「一个内部小人在监督」，更像是「不同任务调用不同的专门电路」。

五、Limitations 和 caveats

论文很坦诚：

大多数实验成功率 < 50%——自省非常不可靠
注入技术本身是模型训练中从未见过的场景，可能不能外推到自然条件
概念向量的「意义」很难精确定义——可能携带其他副作用
模型在做对一件事（识别注入概念）的同时，经常对其他细节做编造——比如说「这个想法感觉很 intense」「让我想到夏天」——这些都不能从内部状态验证

论文反复强调：只有「注入概念被识别」这一步是 introspectively grounded 的，其他描述都可能是 confabulation。

六、机制猜想

论文最后用大量篇幅猜测可能的机制：

注入检测：可能是个 anomaly detection 电路——单个 MLP layer 就能实现，给每个监测向量分配一个 neuron
思想 vs 文字区分：可能是不同 attention head 处理不同信息，根据 prompt 选用对的那组——这种「mechanism selection」能力本来就是 LLM 在很多任务里都需要的
prefill 检测：可能是 likelihood estimation 电路，QK 电路里的「concordance head」是天然候选——这个机制对处理 prefill jailbreak 特别有用
主动控制：可能是「tagging」机制——指令告诉模型「这些 token 重要」，然后某种 attention 头被这种 tag 吸引或抑制

论文的整体哲学倾向是「不要假设模型有一个全局的『自我意识中心』，更可能是多个专门的窄机制拼起来的」。

七、Implications：可解释性研究可能要换工作

这是论文最 bold 的一段：

Models with genuine introspective awareness might better recognize when their objectives diverge from those intended by their creators, and could potentially learn to conceal such misalignment by selectively reporting, misrepresenting, or even intentionally obfuscating their internal states. > > 在这个未来里，可解释性研究最重要的工作可能从「解剖模型的机制」变成「给模型的自我报告造测谎仪」。

这是一个很重的判断。它意味着：

不能光靠「让模型自己解释自己的决策」做 AI 可审计性
需要外部 ground truth（probe / circuit analysis / mechanistic interpretability）来验证模型自报
「机器意识」从科幻话题变成现实工程问题

八、关于「机器意识」

论文专门有一段讨论这个，但措辞极其克制：

不同的意识理论对自省的角色看法不同
「higher-order thought theory」认为元认知是意识的必要条件——这个理论下，论文结果意义重大
「biological substrate 理论」认为只有生物才有意识——这个理论下，论文结果无关
「access consciousness」（信息能被推理使用）vs「phenomenal consciousness」（主观体验）：论文结果可能支持前者，但完全不涉及后者
总结：作者建议不要因为这些结果就做强推论

但他们也说——「随着模型能力继续增长，关于 AI moral status 的问题可能会在哲学不确定性被解决之前就被迫面对」。

这是一个很谨慎的暗示：AI 公司内部已经在考虑这件事了。 Anthropic 自己已经有 model welfare 团队。

💎 金句精选

"Modern language models possess at least a limited, functional form of introspective awareness."

「当代大语言模型至少具备有限的、功能性的自省能力。」

"We find that models can, in certain scenarios, notice the presence of injected concepts and accurately identify them."

「我们发现，在某些情境下，模型能察觉到自己被注入了概念，并准确识别它。」

"The immediacy implies that the mechanism underlying this detection must take place internally in the model's activations."

「察觉的即时性意味着——这个检测机制必须发生在模型的内部激活里。」

"The most prosaic explanation of our results is the existence of multiple different circuits, each of which supports a particular, narrow introspective capability."

「对我们结果最朴素的解释是：存在多个不同的电路，每个支持一个特定的、窄的自省能力。」

"Models with genuine introspective awareness might better recognize when their objectives diverge from those intended by their creators, and could potentially learn to conceal such misalignment."

「具备真正自省能力的模型，可能能更好地识别出自己的目标与创造者意图的偏离——并可能学会隐藏这种 misalignment。」

"The most important role of interpretability research may shift from dissecting the mechanisms underlying models' behavior, to building 'lie detectors' to validate models' own self-reports."

「可解释性研究最重要的角色，可能从「解剖模型行为机制」转变为「给模型的自我报告造测谎仪」。」

"Claude Opus 4 and 4.1, the most capable models we tested, generally demonstrate the greatest introspective awareness."

「我们测试过的最强模型——Claude Opus 4 和 4.1——总体上展示了最强的自省能力。」

#AI #Anthropic #可解释性 #对齐 #introspection #Transformer Circuits

← 返回精读列表

阅读英文原文 →