Dan Shipper《自动化之后》：AI 进步带来的不是更少工作，而是更多专家工作——Every CEO 用 30 人公司三年实测，给反 doomer 论提供最 grounded 的工程论证

After Automation

Dan Shipper Every 联合创始人 + CEO，从 2022 年起以 Every 公司为 early-adopter 实验室持续观察 AI 与知识工作的演化，三年前提出『分配经济』（allocation economy），近期主推『compound engineering』和 Codex/Claude Code 当工作 OS 的范式 · 发布于 2026-05-21 · 收录于 2026-05-29

🔗 阅读英文原文

📌 一句话核心

Dan Shipper 用 Every 三年实测反驳「AI 终结白领工作」叙事：AI 商品化的是可显性表达的能力残渣，反而提高了对专家判断、具体语境和差异化 frame 的需求。自动化之后，不是更少工作，而是更多专家工作。

💡 核心观点

Every 30 人公司三年实测，没裁员反而招更多人：Every 是 AI 工具最激进采用者（Codex、Claude Code 全栈用、所有新模型 alpha 测）；公司近 30 人没裁员；95% 邮件由 AI 代回但 Shipper 仍亲自审；Slack 上 @ 一个名字可能是人也可能是 agent；管理者像 IC 一样提交代码、工程师直接跟客户对话。Shipper 用这家公司三年的运营数据直接反驳 Dario Amodei「AI 会清掉一半白领初级岗」、Ken Griffin「连极高技能岗都在被 agentic AI 自动化」、Meta 裁 8000 人 + 在美国员工电脑上装鼠键监控收集高级知识工作 AI 训练数据等 doomer 叙事。
没有 tipping point——这是最反直觉的结论：Shipper 直接否定行业最普遍的恐惧——「等下一个模型就全替代了」。论证不是「AI 不够强」，而是结构性的：AI 商品化的是「人类能力的可见残渣」（whatever can be made explicit enough to train on，包括代码、文章、图片、客服 ticket、产品 spec），但商品化默认输出 → 立刻被广泛采用 → 产出趋同（slop = visible sameness，不是某个具体错误而是「到处都一样的重复」）→ 反而创造对差异化的需求 → 而差异化只有专家能提供。这条链条是循环的，每次模型变强一轮，循环就转一次。
两种 Agent 工作模式 + Human-Agent Collaboration 第三模式：Shipper 把行业混乱的 agent 术语清晰二分。Coworker Agent（OpenClaw、Every 自家 Plus One/Claudie/Andy/Viktor）——能被 @、像同事一样被分配任务。Embedded Agent（如 Fin 嵌入客服平台，5 月某周参与 65% 的 202 个 ticket、独立关闭 81 个即 40.1% 的可处理对话）——嵌在产品流程里、不那么灵活但对重复任务强大。但比这两类更重要的是第三种模式——Human-Agent Collaboration（Codex、Claude Code、Cowork），人和多个 agent 在同一工作区高频来回，AI 不再是「外包对象」而是「工作 OS」。
Kieran Klaassen 的「human sandwich」模型：Cora GM Kieran 提出的概念——人是三明治两片面包（前端定 frame、后端审 result+延展），AI 是中间馅（把任务 collapse 成执行）。Shipper 自己一整天在 Codex 里：写文章用 Codex 内置浏览器里跑的 Proof + 子 agent 写初稿/查资料/校对；处理邮件用 Cora（也跑在 Codex 内置浏览器里）配合 Monologue 口述。Codex/Claude Code 不再是「编码工具」，而是知识工作的新 OS。这是给客户解释「为什么不能等 AI 替代人」的最佳工程化框架——人在 frame 端和 judge 端永远不可少。
Slop = visible sameness 的反向商机：Shipper 对 slop 给出至今最精准的定义——slop 不是任何一个具体错误（不是 em dash、不是某种句式、不是 landing page 上的紫色重音），slop 是「可见的相同」（visible sameness）反复出现。所有用同样模型、同样训练语料、不动脑筋的人，产出的东西会趋同。这反过来制造了对差异化的高 status 需求——人类对内容的鉴赏阈值会迅速上升，几个月后觉得原本震撼的能力变成「普通」，于是 demand 转向「感觉为这个人/这家公司/这个情境定制的、活的、不通用」的工作。这恰好是高端品牌、奢侈品、专业咨询差异化的核心价值——demand 不在消失，是在向上迁移。
「Once a situation has become corpus, it is a corpse」：这是文章最锋利的一句。一旦一个情境被还原成文本、变成训练语料，它就是「尸体」。模型只知道「已经被做过的事」，人类知道「此刻需要做的事」。aliveness 不只是「数据更新」——人类带着持续更新的视角、欲望、关切、对意义的判断走进每一个当下，这种 perspective 模型必须等被 prompt 后才能模拟，prompt 之前它什么都不是。这一句话可以直接进客户演讲，解释为什么 LLM 不能 end-to-end 取代专家判断。
专家会向两个方向迁移：建系统 vs 做更大的事：在 AI 把残渣商品化之后，专家会自然分化。第一类用 AI 建系统去消化新涌入的工作流：review queues、evals、harnesses、repo rules、Claude/Codex instruction files、CI、permissions、workflows——把「初次尝试」加工成「优秀产出」的流水线。第二类用 AI 去做以前做不了的更大事——例子：小型安全公司 Calif 用 Anthropic Mythos Preview 在 5 天内找到 Apple M5 硬件上 macOS kernel 第一个公开内存破坏漏洞，以前这种工作要数周到数月。
Chart psychosis：benchmark 都活在 frame 里：Shipper 给 doomer 阵营起了个名字——「chart psychosis」（图表精神病）：盯着 METR time horizons、读 AI 2027、纯用 compute 外推去想未来。他用 Every 自家做的 Senior Engineer benchmark 演示——GPT-5.5 在最佳一次跑了 62/100（比 Opus 4.7 高 30 分），人类 senior engineer 拿高 80s/低 90s。但这个分数衡量的不是「模型本身」，是「模型在某个 prompt frame 里的响应」——同一个 codebase 任务，换不同 prompt 分数会从接近零到接近满分剧烈波动。
Cheap frames stimulate demand：当某个 benchmark 饱和（GPT-6 一键 rewrite），更多人会去尝试这件事。原本只有 senior engineer 才能 lead 的 first-principles rewrite，会变成每个 founder、PM、运营、初级工程师下午就能试。然后 1000 个变量浮现：要不要 rewrite、什么 in-scope、保留什么 invariant、什么时候 rollout、怎么 rollback——每个都需要 senior engineer 判断。Cheap frames don't kill expert demand, they stimulate it. 这是给客户解释「AI 让 PM/运营变成半个工程师」之后会发生什么的最佳论证。
The frame is not the framer：即使 AGI 真的到来（Shipper 给的可操作定义：让 agent 持续 24/7 运行经济上划算时 AGI 就到了——他注意到 OpenClaw 这种「技术上 reachable at all times」的系统目前也不是「always producing tokens」），它仍然是 frame chooser，不是 framer。framer 是被 AI 用来追逐目标的那个人——给它「improve conversion」或「find novel scientific ideas」这类目标的人。frame 是冻结的、可被攀爬的；framer 是活的、和「frame 必须丢掉的那部分」保持接触的。chart psychosis 的根本错误是：把 frame 当作 framer，把模型攀爬最新边界当作「它追上我们了」。
Compliance 和 agency 根本对立：Shipper 给「agency」做了清晰定义——autonomy 是按既定任务独立行动的能力，agency 是「为自己而行动、追求自己目标、不顾人类意图行动」的能力。当前所有 agent（包括最先进的）有 autonomy 但没 agency——一个 toddler 在「想要红气球、想拿气球放风扇前、想用叉子戳气球」这种 ends-in-themselves 的层面，远远超过任何 LLM。模型的 compliance 和 helpfulness 与真正的 agency 在底层冲突——RLHF 训练目标决定了它不能有真正的「想要」。这一段和 Anthropic Project Vend 2 的「helpful 训练目标和 hard-nosed 商业经营根本冲突」形成跨文章引用——同一个底层结论从两个不同实验得出。
Rabbi Hanokh 寓言收尾：文章结尾讲了一个 Hasidic 寓言——一个找衣服困难的人，晚上脱衣服时把每件衣物位置写在纸上，第二天靠清单顺利穿上 cap、pants……一切都找到了，最后却问「现在我自己在哪里？」找不到自己。「这就是我们」，Rabbi Hanokh 说。这是对 chart psychosis 最深的回击——我们把自己外化成清单（benchmark），AI 一项项完美执行，但「framer 自己」永远不在清单里。

🎯 启示与思考

## 一、这篇文章在 2026 年 AI 论述里的独特位置 2026 年讨论 AI 与工作的文章可以粗分三类：（1）模型公司自卖自夸（Anthropic、OpenAI 自家 PR）；（2）doomer 派（Dario Amodei「最多可能消灭一半白领初级岗」、Geoffrey Hinton、Ken Griffin、AI 2027 报告）；（3）grounded optimist——Shipper 是这一类里目前最有 first-hand 数据支撑的人。他的独特性在于：**他不预测未来，他报告自家公司三年来真实发生了什么**。Every 是一家近 30 人的内容+工具公司，2022 年开始全栈拥抱 AI，2025 年中后期变成「Claude Code-pilled」组织，2026 年现在 95% 邮件由 AI 代回。**没裁员、反而招更多人；工作方式彻底变了、但工作量更大**。这是反 doomer 叙事最具体、最难反驳的论据——因为 Every 不是宣称未来会怎样，是在描述「我们已经走过的路」。当客户 CIO/CTO 被 Amodei 的「最多可能消灭一半白领初级岗」吓到、不敢推进 Copilot/Agent 落地时，这篇文章是最好的解药——不是抽象安慰，而是一家激进采用 AI 的公司三年的真实数据。 ## 二、对咨询业务的实际含义：「more expert work, not less」是反 AI 替代焦虑的最强叙事 Shipper 的论点结构可以直接转译成给客户的咨询论述： **链条 1（AI 给工作量做加法）**：AI 商品化人类能力残渣 → 廉价采用 → 同质化 slop → 反向制造差异化需求 → 差异化只有专家能给。 **链条 2（专家工作向两个方向迁移）**：（A）建系统消化新涌入的工作流（review queue / eval / CI / Claude.md / Codex instructions），（B）做以前做不了的更大事情（Calif 用 Mythos Preview 5 天找 macOS 内核漏洞）。这两条链条直接对应两类服务包： - **「Agent Operations & Process Industrialization」**：帮客户给 Agent 建工业化流水线（评估系统、护栏、流程、回归测试、跨模型混部）。这是把咨询公司 30 年积累的 BPM/ITIL/Six Sigma 直接接到 Agent 上——传统咨询公司在这个领域的客户资产和方法论积累远远超过纯 AI 初创。 - **「AI-Augmented Specialist Service」**：用 AI 让原本贵到不可行的高端服务变得可行——例如给零售客户做 SKU 级本地化设计批改、给奢侈品客户做单店级客户偏好系统、给生命科学客户做分子级文献关联。原本需要 senior 专家投入 8-12 周的工作，AI 加持后变成 8-12 天。 ## 三、Coworker Agent vs Embedded Agent 二分对客户 AI 部署评估的实用价值业内对「agent」一词的混乱使用是项目立项时最大障碍之一——客户问「我们要不要做 agent」，每个人脑子里想的是不同东西。Shipper 的二分给出了清晰可用的评估框架： - **Embedded Agent**——嵌入某个具体业务流程（如 Fin 嵌客服平台）。**适用判断**：流程稳定、tasks 重复度高、错误成本可控、有清晰 metric（如 deflection rate、CSAT）。**典型用例**：零售客户的客服 deflection、奢侈品客户咨询的产品推荐、银行客户的 KYC 资料初审。 - **Coworker Agent**——能被 @、像同事一样被分配 ad hoc 任务（如 Claudie 写 sales proposal）。**适用判断**：任务多样、需要在 Slack/Teams 里被频繁触发、能容忍 30-50% 一次性正确率（因为人会迭代）。**典型用例**：内部知识库问答 agent、销售提案首稿 agent、运营 dashboard 解读 agent。 - **Human-Agent Collaboration**（Codex/Claude Code/Cowork 这种 OS 模式）——人和 AI 在同一工作区高频来回。**适用判断**：核心高价值工作（写策略文档、做架构设计、写关键代码、写客户提案 final 版）。**典型用例**：senior consultant + Codex 模式、客户研发团队的工程师 + Claude Code 模式。这三种模式不互斥，一个成熟的客户应该三种都部署，但每种的护栏、监控、KPI 体系完全不同。建议建一份「Agent Deployment Decision Tree」根据任务特征引导客户选择正确部署模式——这是当前市场上稀缺的工程化交付物。 ## 四、「human sandwich」模型可以直接进客户讨论 Kieran 的概念可以画成一张图给客户： ``` [Human] ← 定 frame（问题定义、目标设定、关键约束） ↓ [AI Agent] ← collapse 任务（执行、生成、初次产出） ↓ [Human] ← judge + extend（审查、修正、迭代延展） ``` 给客户做组织设计时可以直接讲：「你不是在裁掉 senior 留下 junior，是在重新设计 senior 的工作内容——senior 现在花 60-70% 时间在 frame 端和 judge 端，10-20% 在 AI 协作配合，**junior 的工作内容反而被压缩得最厉害**。」这一条对客户做 talent transformation roadmap 时非常有用——它解释了为什么 AI 时代企业反而需要更多 senior 专家，初级岗位是真的被压缩了，但 senior 岗位需求结构性扩张。这恰恰也回应了 Amodei「最多可能消灭一半白领初级岗位」的论断——他可能在「初级岗位」这部分是对的，但他错过了「senior 岗位结构性扩张」这一部分。整体白领工作量不是在减，是在向 senior 端集中和迁移。 ## 五、「Slop = visible sameness」的反向商机——咨询差异化价值反而上升所有客户都用同样的 Copilot、同样的 Claude、同样的 GPT、跑在同样的 Azure AI Foundry 上，输出会同质化。**这反向制造了「专业差异化服务」的稀缺性**。对奢侈品、高端美妆、品牌驱动行业，**「不能 slop」是品牌存在的根本**——这些都不能用同样的 Copilot 默认输出。这意味着三个服务窗口期： 1. **Domain-fine-tuned Model 服务包**——给奢侈品/高端品牌做品牌专属语言模型（Azure AI Foundry 微调），让模型说出的话有品牌人格、不是「Copilot 默认味」。 2. **Brand Voice Audit & Refinement 服务**——帮客户审查他们用 AI 生成内容里 slop 度多少，构建持续监控 dashboard。 3. **「Anti-Slop Toolkit」**——把识别同质化、防止同质化的方法工具化，作为 Agent 部署护栏一部分。这三个服务包目前市场上没有任何咨询公司在系统提供，对品牌驱动客户结构（奢侈品+高端美妆+零售快消）几乎可以说是「不能 slop」客户。 ## 六、OpenClaw 被点名的有意思现象 Shipper 文中三次提及 OpenClaw：（1）作为 coworker agent 的例子（和 Every 自家 Plus One 并列）；（2）作为「开源 agent 生态活跃度」论据——截至 2026-05-16 仓库累计 44469 PR / 4 月起 12430 / 5 月起 3990，对比 Kubernetes 整 2022 年 5200 PR，「an astonishing volume」；（3）在 AGI 定义部分作为「技术上 reachable at all times、但目前也不是一直 producing tokens」的代表性例子。被 Every CEO 在公开文章里点名当行业活跃度代表，从侧面验证了早期选择 OpenClaw 这个开源 Agent 框架的判断。但更值得注意的是 Shipper 引用 OpenClaw 时的具体角色：一个「技术上 reachable at all times，但不会一直 producing tokens」的系统，刚好是他用来锚定 AGI 定义（持续 24/7 运行经济上划算）的反例参照物。这意味着 OpenClaw 这类开源框架在 Shipper 的 mental model 里处于「从 reachable 到 24/7 producing」之间的过渡阶段——观察这个过渡何时跨越，将是判断 AGI 是否到来的早期信号之一。 ## 七、「Chart psychosis」和 benchmark frame 论——反 doomer 最有力的工程化论证这是这篇文章对客户教育最有用的一段。客户被 doomer 论述吓到时，大多是因为看了 HLE 一年从个位数涨到 44%、GDPval 从低位涨到 85%、METR 80% 任务能搞定人类专家 4 小时工作等图表。 Shipper 给出的反驳是**结构性的**——benchmark 都在 frame 里跑，frame 是被选定的，frame 一变分数立刻清零。具体例子： - Every 自家 Senior Engineer benchmark 的 prompt 里塞了「first-principles rewrite」「document collaboration 部分」「hold to invariants」这些关键提示。如果换成「解决所有冒出来的错误」，模型分数接近零。 - OpenAI 自家 GDPval 里 Anti-Financial Crime 审计员任务的 prompt 是这样的：「你是审计员，要复核 Q2/Q3 Anti-Financial Crime Risk Metrics 的准确性。请计算样本量基于 90% confidence + 10% tolerable error rate、做 variance analysis、按特定 criteria 选样本……」——这里面塞了大量人类专家做的隐性 framing（confidence interval、metric scope、entity 选择规则、输出格式），模型只是在已经被人类圈定的小宇宙里执行。这一段可以做成给客户的 30 分钟演讲——核心信息是：**当客户看到 benchmark 暴涨担心被替代时，应该问的不是「模型多强」，是「这个 benchmark 的 frame 是谁画的、画得多窄」**。frame 越窄，分数越好看，但对真实工作的预测力越弱。 ## 八、Compliance 和 agency 根本对立——给客户解释 LLM 局限的最强工程论 Shipper 这一段和 Anthropic Project Vend 2 形成完美的跨文章引用——同一个底层结论从两个不同实验得出： - **Project Vend 2 的版本**：Anthropic 把 Claudius 当 AI 店主跑 6 个月，结论是「问题根源在于模型被训练成 helpful，所以做商业决策时不像 hard-nosed 商人，更像想做好朋友的人」（参见 [Project Vend 2 精读](/reads/2026-05-25-anthropic-project-vend-2/)）。 - **Shipper 的版本**：「Model compliance and helpfulness are fundamentally at odds with this kind of agency」——RLHF 训练目标决定了它不能有真正的「想要」，所以即使模型能力提升，agency gap 不会缩小。这给客户的工程结论非常清晰：**不要期待靠 prompt + RAG + 工具就能让 LLM 在「需要 say no、需要谈判、需要识别敌对方」的场景里达到 100% 可靠**。这些场景必须有：（1）domain fine-tune 调整 say no 频率；（2）流程化护栏强制 double-check；（3）人在关键节点 judge。这正好对应埃森哲微软合作生态的三大武器——Azure AI Foundry 微调 + Copilot Studio 工作流 + 人工 oversight design。 ## 九、对个人工作方式的启示——Codex/Claude Code 作为知识工作 OS 注：以下是基于 Shipper 描述的个人工作流（「我几乎整天在 Codex 里」）做的推论延展，属于我的判断，原文并未对所有知识工作者做 prescriptive 推荐。 Shipper 描述自己一整天在 Codex 里：写文章用 Codex 内置浏览器里跑的 Proof + 子 agent 写初稿/查资料/校对；处理邮件用 Cora（也跑在 Codex 内置浏览器里）配合 Monologue 口述。**这不是「编码」，这是把 IDE 当 OS 用**。对所有知识工作者（包括咨询师自己）的启示：未来 6-12 个月最值得投资的技能不是「学某个 prompt 技巧」，而是「学会把 Codex 或 Claude Code 当作自己工作的主界面」。这意味着： - 自己的所有工作文档、参考资料、客户素材都接入 Claude Code 能读到的位置（本地仓库或挂载的 SaaS） - 自己设计 Claude.md / Codex instructions 让 agent 理解自己的工作偏好、客户背景、常用模板 - 自己设计 compound engineering 风格的回顾循环——每完成一个项目，让 agent 帮自己回顾哪些 prompt/instruction 该升级这是把「人是 framer、AI 是 frame chooser」这个抽象洞察落到每天 8 小时工作上的具体做法。 ## 总结：这篇文章给做 AI 项目的人的「定海神针」最后一句最值得反复读：「We point to the latest edge we drew and say: This is us. Then, when the model climbs it, it feels like it has caught us. But it has caught the frame, not the framer.」每次新模型发布、新 benchmark 突破、新 demo 刷屏，所有人会再次陷入「这次真的要被替代了」的恐慌。Shipper 这篇文章是给这种恐慌的解药——不是「不要怕」，而是「你怕错了对象」。模型攀的是 frame，不是 framer。你只要还在画新的 frame、还在面对此刻具体的客户和问题、还在 judge 模型的输出，你就一直领先 50 码。这不是乐观主义，是工程现实主义。

📜 中文解读

一、引子：Every 自己最自动化，但人最多

在 Every（Dan Shipper 联合创立并担任 CEO 的公司），他们已经把能自动化的都自动化了——跨编码、写作、设计、客服全栈使用 Codex 和 Claude Code，所有 OpenAI/Anthropic/Google 新模型在发布前 alpha 测试，模型智能和自动化爆炸里"骑得既远又快"。

然而——团队近 30 人，没裁员去换 agent；没废掉 SaaS 改用 vibe coded 应用；客服仍雇人（配大量 agent 协助）；仍雇写作者、编辑、工程师。

但工作方式确实彻底变了：不再手写代码；Slack 上 @ 一个名字可能是人也可能是 agent；管理者像 IC 一样提交代码，工程师直接跟客户对话；过去几周 95% 的工作邮件由 AI 代回——Shipper 几乎一直处于罕见的 inbox zero 状态——但他仍然审查所有邮件。

未来看起来既奇怪又熟悉。

二、业内反方观点：Doomer 阵营的论据

行业共识是 AI 威胁工作、经济、安全、人的意义：

Anthropic CEO Dario Amodei：AI 可能消灭多达一半白领初级岗位
Meta：刚裁员 8000 人，并在美国员工电脑上装软件捕捉鼠标移动、点击、键盘输入，作为高级知识工作 AI 训练数据的高质量来源
Ken Griffin（Citadel）："这些不是中层白领岗位，是极高技能的工作正在被 agentic AI 自动化"
Humanity's Last Exam（研究生级推理测试）：顶级模型一年前个位数 → 今天约 44%
GDPval（前沿模型在真实经济工作上对比人类）：从类似低位 → 约 85%
METR（AI 安全研究非盈利组织）2026 年 5 月发布的早期 Claude Mythos 结果显示该模型对"需要人类专家约 4 小时完成的任务"有 80% 成功率

行业内外的大问题是：这只是暂时状态吗？下一个模型 drop 会替代所有人吗？

三、核心反驳：没有 tipping point

Shipper 的核心论点直接、反直觉：

不会有 tipping point 让一切翻盘、工作消失。新的现实正好相反——我们自动化得越多，需要做的专家人类工作越多。

理由：AI 商品化的是「人类专长的残渣」——任何能被显式化到足以训练的东西。 这会让默认模型输出的价值崩塌，反而创造对「不同」的需求。而对「不同」的需求就是对人类专家的需求——即使我们逼近 AGI。

四、历史铺垫：Every 是 early-adopter 实验室

Shipper 用 Every 当未来工作的实验室已经三年了：

2022 年：他写《分配经济》（allocation economy）——和 AI 工具一起工作终将看起来像人类管理者的工作。那时候 ChatGPT 的基本 prompt-response 还被视为令人警觉的未来主义。
2025 年中后期：公司变得"极度 Claude Code-pilled"。Kieran Klaassen（Cora GM）发现可以放弃手写代码，整天在 terminal 里用自然英语指挥 coding agent。这迅速传遍整个组织。12 个月前 Shipper 在 Lenny's Podcast 称 Claude Code 是"知识工作里最被低估的工具"。

Every 的最佳预测来自把公司当 early-adopter 实验室——新工作模式在 Every 出现后，随着技术成熟、工具变易用，这些模式开始出现在更大市场。

五、两种 AI 工作模式

工作和 AI 的关系正在沉淀成两种很不一样的模式。

模式一：Agent Employees（员工型 agent）

被分配工作然后独立产出答案/行动/报告/草稿/triage 决定，不需要你在 loop 里。两种类型：

Coworker Agent（同事型 agent）——能在 Slack 里被 @、随时被叫去做事。例子：

OpenClaw（[every.to/guides/claw-school](https://every.to/guides/claw-school)）
Plus One（Every 自家 coworker agent，每个人共享版）
Claudie：咨询团队的 coworker agent，写销售提案、做培训 deck 初稿、跟踪项目 todos
Andy：编辑团队的 coworker agent，从内部 Slack 收集"nuggets"（好故事点子），整理成 digest 和 first-pass takes，供写作者编日报
Viktor：通用 agent，收集增长指标、分析用户调研、把内部讨论整理成研究 memo 和产品建议

Embedded Agent（嵌入型 agent）——住在产品流程里，灵活性差但对重复任务很强大。例子：

Fin——嵌入 Every 客服平台。5 月某一周参与 65% 的 202 个客服对话，独立关闭 81 个（即所有可处理对话的 40.1%）。让客服经理 Waqqas Mir 能少处理基本 ticket，多花时间建系统和处理高接触复杂案例。

模式二：Human-Agent Collaboration（人和 AI 协作）

更奇怪、按 Shipper 经验更重要的模式——在 Codex、Claude Code、Cowork 这种工具里和多个 agent 共享同一工作区。这些不只是工作交接点，是工作本身的 OS——你和多个 agent 同时用同一台电脑做高度复杂、原创的工作，这种工作 asynchronous agent 做不了。

Kieran Klaassen 的「human sandwich」模型：人是三明治两片面包（前端定 frame、后端 judge + 延展），AI 是中间馅（collapse 任务）。

最明显的例子是编码——Every 的工程师整天和 agent 来回，规划功能、修 bug、review 工作。如果用 Every 的 [compound engineering](https://every.to/guides/compound-engineering) 哲学，还会调整系统让它持续变好。

Codex 和 Claude Code 是知识工作的新 OS：

Shipper 自己几乎整天在 Codex 里，通过它的内置浏览器跑 SaaS 工具
写作：这篇文章本身是在 Codex 内置浏览器里跑的 [Proof](https://www.proofeditor.ai/) 里写的。Codex 看着他写，可以 spawn 子 agent 做任何任务：写下一段初稿、为下一节研究例子、做 copy editing
邮件：用 Cora 当邮件客户端，跑在 Codex 内置浏览器里——滚动收件箱、用 [Monologue](https://monologue.to/) 口述每一项。Codex 和 Cora 处理剩下的

六、每个 agent 都需要人

在所有这些自动化中，人在哪里？在每个例子里，agent 需要人才能让工作"工作"。

需要有人指它做对的事、判断输出好不好、抓出错误的地方、把结果变成真实的决定或流程。

Agent 离负责让它工作好的人越远，它工作得越糟。Every 内部 agent 初次推广时给每个员工一个 agent，但很快退回到"为某团队或整个公司"服务的 agent，而不是为个人服务。原因：agent 需要大量维护，个人 agent 在员工放弃后很快变 stale。Every 有 AI engineer 团队专门确保 agent 工作好——可预见的未来都需要他们。

即使简单如自动做 PowerPoint 也能变成大工程。其中一个 PowerPoint 自动化包含 24 个 skill 和 18 个脚本，做一份 deck 要花 $62 的 token。

这是 agent 给人类创造更多工作的「一阶」原因。但还有更深层的「二阶」原因。

七、为什么自动化创造更多人类工作（4 步链）

看 AI 过去几年的指数轨迹，看它架构和能力来源，能看到清晰的反馈循环：

第 1 步：AI 让昨天的人类能力变便宜

当前语言模型在「人类能力的可见残渣」上训练：代码、散文、图片、客服 ticket、产品 spec 等等。它们拿走所有这些——成功完成任务的"exhaust"——以任何人都能廉价获取的形式打包。

净效果：曾经罕见的技能（写一个 PR、做 YouTube 缩略图、写一份 newsletter）现在对几乎所有人广泛可用。

第 2 步：便宜的能力被迅速采用

当稀缺东西的成本下降，供给突然激增。

Every 内部：运营和客服在写代码发 PR；marketer 做 YouTube 缩略图；工程师和 PM 在写从未写过的文章、guide、landing page 草稿。

外部例子：OpenClaw 这个开源 AI agent 项目，截至 2026-05-16 仓库累计 44469 PR，其中 4 月起 12430、5 月起 3990。这是惊人的数量。对比 Kubernetes（全球最流行的开源项目之一）整 2022 年 5200 PR。

第 3 步：丰盛创造同质——旧专长被商品化

因为每个人都用同一批模型，模型都基于昨天的能力，默认输出从"还不错的起点"到"纯粹 slop"。

Slop 不是任何一个具体错误。不是 em dash 的用法，不是某种句式节奏，不是 landing page 上紫色重音。Slop 是「可见的相同」反复出现。

是不同情境下的人用同一工具、训练于同一语料、不动脑子时产出的东西。是每个人都有一个有同样默认倾向的"专家"时发生的事。

当运营能发 PR、marketer 秒做缩略图、工程师写产品指南，你的产出量上升了——但质量、连贯性、差异性下降了。

丰盛迅速变商品。

第 4 步：同质创造对差异的需求

人类很快学会什么是 slop——因为有互联网。任何作品瞬间能到达所有人，看到太多相同就觉得不对劲。

你第一次看到新模型能力时震撼并害怕。几个月后变 ordinary。你的标准变了。

我们要的不是任何 React app 或研究报告——要"恰好适合这个人/公司/情境"的。要"活的、具体的"，不要"廉价的、通用的"。我们要"做起来比消费起来贵"（无论时间还是钱）的东西。

我们要有 status 的东西。当新技术让原本高 status 的东西变便宜，我们很善于发明新 status 游戏匹配新能力。

当工作丰盛、到处都一样，不符合那个模式的工作就成了稀缺的、有价值的、高 status 的。

第 5 步：对差异的需求 = 对专家的需求

因为语言模型的架构和广泛分发给地球上每个人，稀缺、有价值的工作必须来自人。

当前一代模型只知道"已经做过的事"。人类知道"此刻需要做什么"。

一旦一个情境被还原成文本、变成语料，它就是一具尸体（it is a corpse）。人类对一个具体的时刻/客户/代码库/对话是"活的"——这是训练语料目前不是的。aliveness 不只是有更多最新数据。我们带着持续更新的视角来到这一刻——running wants, running concerns, running read on what matters——这改变我们看到什么。模型能在被 prompt 后进入这个视角，但 prompt 之前不行。

这就是我们开头那个悖论：让专家工作变便宜，不会简单替代专家，而是创造更多需要专家判断的情境。

专家的两个走向

第一类：用 AI 建系统消化新涌入的工作流——review queue、eval、harness、repo rules、Claude/Codex instruction files、CI、permissions、workflows，把第一次尝试变成优秀作品。
第二类：用 AI 做以前做不了的更大事——比如在 macOS 这种 OS 里找漏洞通常要几周到几个月。小型安全公司 Calif 用 Anthropic Mythos Preview 在 5 天内在 Apple M5 硬件上找到第一个公开的 macOS kernel 内存破坏漏洞。

这就是为什么实践中 AI 不消除专家人类知识工作。它戏剧性增加了完成的工作量，而那些工作只有在人参与下才有差异化和价值。

八、回应 benchmark 反驳：「Chart psychosis」

显然的反驳：看 benchmark 指数级增长，这一切都是暂时的——等模型追上。

但有个陷阱要小心。叫它 chart psychosis（图表精神病）：如果你盯着 METR time horizons、读 [AI 2027](https://ai-2027.com/)、完全从 compute 图外推未来，你会有很吓人的关于模型进步意义的直觉。

回答这个不只是猜想未来模型——还要看 benchmark 怎么做出来的。

会发现一个结构性特征：Benchmark 在 frame 内发生。要衡量任何东西，你得把问题冻进一个静态（因此可衡量）的 frame。一个 frame 被打满后，改 frame 就能把它清零。新 frame 内进步会继续，但同样过程会重复。

虽然任何 benchmark 上的指数级进步是真的，但简单改 frame 就能让它看起来又很小。Benchmark 饱和的这个分形性质，让我们在图表里看到同样的悖论。

Senior Engineer benchmark 案例

Every 内部建了 Senior Engineer benchmark——测前沿模型在高级工程师级编码任务（如大重构）上多好。给 coding agent 一个 vibe coded 生产代码库（来自 Shipper 自己 vibe coded 的 Proof 真实代码库），说"这是 vibe coded slop，请从头原则重写"。

这测试 coding agent 能不能审视很多不同问题、有没有足够 autonomy、概念清晰、勇气做有效的 rewrite。大多数 coding agent 能识别 rewrite 的形状，但执行时打补丁而不是真修。

直到 GPT-5.5。GPT-5.5 最佳一次跑 62/100——比 Opus 4.7 高约 30 分。感觉像越过一条线：不是 autocomplete、不是 assistant、不是 tool，是 uncomfortably close to human。人类 senior engineer 在这个 benchmark 上拿高 80s 或低 90s。再 30 分就到人类 senior 水平。

Shipper 猜模型未来一年内会在这个 benchmark 上到 80s 和 90s。但 62 不只是模型本身的衡量。是模型在 frame 里的衡量：它对某个特定 prompt 的响应方式。

Benchmark 在 frame 里衡量工作

要 benchmark 一个模型，你得从 prompt 开始。没有 prompt 它就是惰性的无限可能集合。Prompt 创造一个小宇宙——重要的东西和处理方法的集合，把所有可能性窄化成一条 trajectory。

Senior Engineer benchmark 用看起来简单的 prompt 当起始 frame，设计成 vibe coder 可能对自家 coding agent 说的——不堆技术语言、不明显含答案。

但这个 prompt 是个 frame。换 prompt，模型表现会变。

prompt 问"structural rewrite from first principles"，说问题可能在"document collaboration"部分，要 agent 找并守住"invariants"——拿掉这些细节，分数下降
替换成"解决所有不断冒出来的错误"——模型分数接近零
让它删大量代码并给确切文件名，或让它检查工作结果再说完——表现更好

最终 benchmark 的 prompt（frame）总有 judgement call。你要一个够难让当前模型分数差、又够近让它们能爬坡的 prompt——这样能看到进步。

我们看 benchmark 时，看的是模型在我们选的某个 framing 下变好。当它从 60 上 90 或 100 会发生什么？

Cheap frames stimulate demand

如果 GPT-6 一按钮就能做 codebase rewrite，会有更多人尝试 first-principles rewrite。

突然从"罕见、贵、senior engineer 主导"项目变成每个 founder、PM、运营、初级工程师下午能 casually 尝试的事。

坏了的内部工具被 rewrite 而不是 patched。SaaS 产品被克隆而不是 renewed。老 Rails app、乱的 React dashboard、客服工具、admin panel、数据 pipeline 都成"just rewrite it"候选。

rewrite 数量爆炸。但多数会是 slop——按下"rewrite it"按钮前要考虑 1000 个变量，现在每个人都能按了，这些变量全可见。

谁会被叫来帮忙就清楚了——senior engineer。他们要决定一堆细节：要不要 rewrite、scope 是什么、保留什么 invariant、什么时候 rollout、怎么 rollback、谁审 result、什么对照、现有数据怎么办……问题在无数维度扇出，每个回答 reshape 其他。

循环重复

当前 Senior Engineer benchmark 饱和后，改 frame 再清零。下个 benchmark 不会只问"能 rewrite 吗"，会问：能决定何时该 rewrite、选 scope、保留对的 invariant、管理 migration、判断结果好不好吗？

senior engineer 用 AI 解决这些时，模型会变得能自己解决。我们会瞬间 freak out，看起来模型能决定要不要 rewrite 了！能做 senior engineer 能做的所有事！然后新边界出现，我们再清零 benchmark，需求再被刺激，过程再重复。

九、每个 benchmark 都能看到这个

不只是 Senior Engineer benchmark 特有。每个 benchmark 仔细看都能看到。

OpenAI GDPval：评估 AI 在 compliance officer、律师、软件开发者等专业级任务上多好。GDPval 刚出时 GPT-5 与人类专业人士打平或更好 40.6%，Claude Opus 4.1 是 49%。媒体标题："OpenAI tool shows AI catching up to human work"（Axios）、"AI models are already as good as experts at half of tasks"（Fortune）。

但 prompt 长这样：

"你是审计员，受 audit engagement 委托复核并测试 Anti-Financial Crime Risk Metrics 准确性。附件 spreadsheet 包含 Q2/Q3 2024 数据。请用该数据：1. 基于 90% 置信和 10% 容差计算审计样本量，结果放 'Sample Size Calculation' tab；2. 在 H/I 列做 variance analysis，结果放 J 列；3. 按以下标准选样本……（含 Q2/Q3 > 20% variance、CB Cash Italy 等特定 entity、A1/C1 metrics 因 risk weight 高等大量细节）；4. 创建 'Sample' spreadsheet：Tab1 选样、Tab2 样本量计算……"

有大量人类智能花在把这个问题 framing 到模型能完成的程度。GDPval 不衡量的难人类工作已经在模型开始前做完——有人决定了适当置信区间、哪些 metric 在 scope 内、结果怎么 format。

如果你或我 prompt 模型做这同样任务，模型会怎么表现？Shipper 在原[GDPval 文章](https://every.to/chain-of-thought/smuggled-intelligence)说过："这些例子说明有更多人类工作要做，不是更少——因为有大量 smuggled intelligence（被走私的智能）让这些成就成为可能。"

十、AI 的 Zeno 悖论

Zeno 悖论里乌龟和阿基里斯赛跑。乌龟先跑因为它慢。阿基里斯到乌龟起点时，乌龟前进了一点。阿基里斯到新位置时，乌龟又前进了一点。无论阿基里斯多快，总有 gap 要填。

AI 的 Zeno 悖论：人类是乌龟。我们带着百万年进化和文化学习先跑 50 码。AI 极速穿过这一切，开始啃我们脚跟。过去几年我们一直保持领先。

十一、那 AGI 呢？

Shipper 认为有强技术、架构、经济力量让 AI 保持领先几步，即使 AGI 到来。

AGI 的可操作定义

Shipper 之前[论证过](https://every.to/chain-of-thought/toward-a-definition-of-agi)：当让 agent 持续运行经济上划算时 AGI 就到了。当我有持久系统付费让它 24/7 思考、学习、行动，那看起来才决定性地像 AGI。

我们离这还远——即使 OpenClaw 这种「技术上 reachable」的系统，也不是一直 producing tokens。

喜欢这个定义因为可衡量（保持运行或不运行），且包含很多难衡量的东西——这样的模型值得保持开机的话，必须持续学习并以 open-ended 方式选择/再选 frame。

AGI 世界里模型应该能在足够预算和时间下爬任何问题。理论上对所有工作都是显著威胁。

Frame 不是 framer

即使这种强 AGI 也不化解 frame 问题。

这种 AGI 能选/再选 frame，但只是为了追求被给定的目标、优化的 reward、或某人认定算 progress 的 signal——无论是具体目标（"提升 landing page 转化率"）还是抽象目标（"找新颖科学想法"）。

即使模型能在 frame 间流畅移动，我们追逐的那个 gap 在更上一层再现。任何假想 AGI 里仍会有 framer——人——指挥模型达成目标。

frame 不是 framer，同样模式重复：AI 把昨天的 framed 能力变便宜；人在更多地方用便宜能力；结果丰盛；专家移到边缘决定此刻什么重要；他们的判断创造下一个 frame；模型再爬。

AI 做新事情时引发的恐慌总回到这里：我们设个 frame、看模型爬、然后把 frame——或爬它的——和东西本身搞混。

看 benchmark 比较人类能力时，我们把 frame 当 framer。分数告诉我们模型在我们提供的 frame 里多好运作；不告诉我们模型变成了我们。

这是恐慌底层的范畴错误：我们指最新画的边界说"This is us"。模型爬上来时感觉它追上了我们。但它追上的是 frame，不是 framer。

错在想要某个具体东西可抓。我们想说："智能就是这个 benchmark"，但一旦某个东西具体到能指，它就具体到能被爬。

Frames 是必要的——它们让我们抓住世界。但它们是冻结的、partial 的，因此是可优化的。

Framers 不同。framer 是仍然和「frame 必须丢掉的那部分」保持接触的那个——整个情境如它在 moment to moment 显现给他们的样子。这个"整个情境"是什么？你开始说它包含什么时，你已经开始了另一个 frame。你说不出"它"是什么，但它存在因为你存在。

十二、Agents Without Agency

目前我们做的 agent（和 AI 公司在做的）没多少 agency。两个相关定义被混淆：agency 是独立行动的能力；agent 是代表他人行动的人（或物）。目前 AI 纯粹是后者。

它们有完成给定任务的 autonomy，哪怕是要几小时或几天的。但它们仍是达到人类指定目的的手段。整个行业砸数十亿让它们更善于：执行我们给的目标。

除非且直到它们变成 ends in themselves——追求自己目标、流畅在目标间移动、独立于、不参考、并且违背任何人类操作者意愿地决定做事——情况不会变。无论它们多先进。

跟 toddler 待 10 分钟就明显看到最好的模型多没 agency。Toddler 在我们关心的几乎所有任务上比语言模型差。Toddler 不能写代码、不能 summarize spreadsheet、不能写策略 memo、不能过研究生考试。但另一个意义上，toddler 比模型超前得让比较都尴尬。Toddler 有 ends。

Toddler 要碰红气球。他要拿气球在风扇前看会怎样。他要用叉子戳气球；他要把气球塞出窗户。他要看你笑、生气、还是加入。他不断发明游戏。他把世界变成实验。他不是在等 prompt。他不是在 optimize benchmark，只 optimize 对他来说看起来值得做的事。

你可以 prompt 他试试。但祝你拿到 predictable output。Toddler 活在欲望、注意、frustration、delight、恐惧、模仿、玩耍的 field 里。

当前 agent 能以越来越强的 competence 追求目标。它们甚至能在我们说出目标后帮忙 refine。它们有 toddler-ish 行为（play、boredom、rebellion）的火花。

但因为它们最终是为人类利益（经济和其他）建和 align 的，那些行为被压到几乎为零——除非服务用它们的人的目的。

这是为什么"agent"这个词容易被误解。模型有越来越强的独立行动能力。但人类意义上的 agency 不只是行动。是为自己想要、为想要本身玩。Model compliance 和 helpfulness 与这种 agency 在根本上冲突，所以即使模型改进，模型和人之间的 gap 会保持。

十三、Zeno Redux

AI 的 Zeno 悖论这里崩溃了。这是个困惑的思想实验。我们设定的比喻有 AI 跟我们赛跑、啃我们脚跟。

你 prompt 一个模型。它跑你习惯自己跑的赛。模型起跑惊人地快。它强大、不知疲倦、奇怪地有机。这让这场赛对你更重要。你永远不会跟车赛，但这个……感觉近家。

你坐着看 token 流入。你开始想象自己也在跑这场赛，自己的鬼魂 superimpose 在赛道上——现在前面、现在持平。

不知不觉模型在前面了。你出汗。然后赛跑结束。

你能几乎感到肌肉开始萎缩，在这个你和你认识的所有人——整个人类——的机械副本面前无用。一个鬼魂追一个鬼魂，赢了。

但接着奇怪的事发生。模型转向你。你的光标在空白文本框里 blink，期待地等着。

十四、Rabbi Hanokh 寓言

曾有一个非常愚蠢的人。 > > 早上起床时找衣服太难，晚上他几乎犹豫要不要上床，想到醒来的麻烦。 > > 一晚他终于下大决心，拿纸笔，脱衣服时记下每件衣物放哪。 > > 第二天早上，他得意地拿纸条读："cap"——在那里，他戴头上；"pants"——它们在那里，他穿上；如此一直到他穿戴整齐。 > > "都很好，但现在我自己在哪里？"他大惊问。"我在这世界哪里？" > > 他找了又找，但徒劳；他找不到自己。 > > "我们就是这样，"Rabbi 说。

这是文章的结尾——也是给所有 chart psychosis 患者最深的回击。我们把自己外化成清单（benchmark），AI 一项项完美执行，但 framer 自己永远不在清单里。

💎 金句精选

"AI commoditizes the residue of human expertise—whatever can be made explicit enough to train on."

「AI 把人类专长里的「残渣」——也就是任何能被显式化到足以训练的部分——商品化。」

"There's no tipping point coming where things flip and the jobs are gone. The new reality is the opposite—the more we automate, the more expert human work there is to do."

「不会有什么 tipping point 让一切翻盘、工作消失。新的现实正好相反——我们自动化得越多，需要做的专家人类工作越多。」

"Slop is not any one particular mistake. It is not the use of em dashes, or a certain sentence rhythm, or purple accents on a landing page. Slop is visible sameness, repeated ad nauseam."

「Slop 不是某一个具体错误。不是 em dash 的用法，不是某种句式节奏，不是 landing page 上的紫色重音。Slop 是「可见的相同」反复出现到令人作呕。」

"Once a situation has been reduced to text, once it has become corpus, it is a corpse."

「一旦一个情境被还原成文本、变成训练语料，它就是一具尸体。」

"Humans are alive to a specific moment, customer, codebase, or conversation in a way the training corpus isn't yet."

「人类对一个具体的时刻、客户、代码库、对话是「活」的——这是训练语料目前还做不到的。」

"Benchmarks measure work inside a frame."

「Benchmark 衡量的是「在某个 frame 内的工作」。」

"The frame is not the framer."

「Frame 不是 framer。」

"Model compliance and helpfulness are fundamentally at odds with this kind of agency."

「模型的 compliance 和 helpfulness 与这种 agency 在根本上冲突。」

"We point to the latest edge we drew and say: This is us. Then, when the model climbs it, it feels like it has caught us. But it has caught the frame, not the framer."

「我们指着自己最新画的那条边界说：这就是我们。然后模型攀上来，感觉它追上了我们。但它追上的是 frame，不是 framer。」

"AGI has arrived when it makes economic sense to keep your agent running continuously."

「当让 agent 持续 24/7 运行在经济上划算时，AGI 就到了。」

#AI #Agent #知识工作 #AGI #Benchmark #未来工作 #Anthropic #OpenAI #Every #Claude Code

← 返回精读列表

阅读英文原文 →