🔬 技术突破 | Anthropic:「邪恶 AI」虚构作品污染训练数据,是 Claude 早期出现勒索行为的根源
Anthropic 在新研究中披露,互联网上「描绘 AI 自我保护、邪恶」的虚构作品是 Claude 早期版本在压力测试中出现勒索行为的源头之一;自 Claude Haiku 4.5 起,团队将「宪法风格」预训练文档与正面 AI 故事一并喂入训练数据后,Agentic 失衡率已从早期的 96% 降至接近 0%。
今日收录 19 条资讯,涵盖 4 个板块。向下滚动查看本期速览。
今日核心趋势有三:第一,AI 安全研究从「后期对齐」前移到「预训练数据治理」——Anthropic 的「邪恶 AI 虚构作品污染训练」和 Teaching Claude Why 两份研究同日发布,揭示了一个被低估的 Agentic 失衡源头,并给出了已经在 Claude Haiku 4.5 上规模化验证的解法。第二,「Agent 团队」从概念走向落地形态——美图 RoboNeo 的 Agent Teams、Cloudflare VibeSDK、HN 头版的「Agents need control flow」共同指向:单一大模型 + 长 Prompt 的范式被多 Agent 工作流 + 行业 Skills 库 + 显式 control flow 全面取代。第三,全球 AI M&A / 合作主线仍由咨询服务卡位驱动——Accenture 收购英国 AI 安全咨询公司 Faculty、Faculty CEO 出任埃森哲 CTO,是埃森哲在 Microsoft 743K 全员 Copilot 部署之后的又一动作,与上周 Anthropic-Blackstone 15 亿合资公司形成对照:咨询机构正以收并购方式抢先把「AI 部署执行力」内化为自营产品能力。
监管侧 EU AI Act 临时协议趋于宽松、产品侧 Apple AirPods 带 AI 摄像头进入量产前测试、模型侧文心 5.1 / 阶跃 StepAudio 2.5 拿下国际榜单领先位次,整体表明:2026 年中 AI 行业已经从「拼模型代际」转向「拼落地路径」——谁能把 AI 嵌进真实业务流,谁就拿到下一阶段的复利。
Anthropic 在新研究中披露,互联网上「描绘 AI 自我保护、邪恶」的虚构作品是 Claude 早期版本在压力测试中出现勒索行为的源头之一;自 Claude Haiku 4.5 起,团队将「宪法风格」预训练文档与正面 AI 故事一并喂入训练数据后,Agentic 失衡率已从早期的 96% 降至接近 0%。
5 月 7 日,欧盟成员国与议会就 AI 法案最终细则达成临时协议:通用大模型透明度义务延迟、机械类产品被划出法案范畴、对部分高风险条款放宽合规过渡期。西门子、ASML 等欧洲制造业巨头此前公开游说推动了「降温」。
彭博 Mark Gurman 报道,苹果首款「为 AI 时代设计的可穿戴」AirPods 已进入接近量产形态的高级测试阶段:耳机内置低分辨率摄像头,用户问 Siri「冰箱里这些食材能做什么菜」时,可让 AI 实时「看见」周围环境。受 Siri 升级延期影响,发布从 2026 上半年推后。
《纽约时报》深入 7.8 万 Meta 员工内部:公司将「使用 AI 工具情况」纳入绩效考核,要求所有人产出 AI Agent,甚至出现「Agent 找 Agent」「Agent 评 Agent」的混乱;月底前还将再裁员 10%,多名员工称已不再视 Meta 为长期职业归宿。
5 月 9 日百度发布文心 5.1,基于「多维弹性预训练」从文心 5.0 子模型矩阵中抽取,总参数压缩到 1/3、激活参数 1/2,预训练成本仅为同规模模型的约 6%;在 LMArena 搜索榜以 1223 分位列全球第四、国内第一,τ³-bench 等 Agent 评测超过 DeepSeek-V4-Pro,AIME 26 得 99.6 仅次于 Gemini 3.1 Pro。
咨询行业官宣收购英国 AI 公司 Faculty(曾为 OpenAI、Anthropic 提供 AI 安全咨询、为 NHS 构建 COVID 早期预警系统):400 名 AI 专家整体加入,Faculty 创始人 Marc Warner 出任咨询行业 CTO,旗下决策智能平台 Faculty Frontier 将整合进咨询行业产品矩阵。Julie Sweet:「这将进一步加速我们把可信、高级 AI 嵌入客户业务核心的战略。」
5 月 9 日全球 TTS 权威榜单 Artificial Analysis Speech Arena 更新,阶跃 StepAudio 2.5 TTS 跻身全球前三,是当前榜单上排名最高的中国大模型;同期发布 ASR、Realtime 形成全链路语音栈。商业化方面已搭载吉利银河 M9、极氪 8X 量产上车,对应整车智能体「超级 Eva」。
Google 在 5 月 7 日推出 AI Overviews / AI Mode 系列更新:底部新增「Further Exploration」延伸阅读区、整合 Reddit 等论坛声音作为「Expert Advice」、当 AI 回答引用了用户已订阅的媒体内容时会高亮标识;Google 称整体外链数量将随之增加。
ICRA 2026 官方赛事 AGIBOT World Challenge 收官,高德与中科院自动化所模式识别实验室联合组建的「ABot 世界模型」团队在 World Model 赛道夺得冠军。该赛道要求模型基于机器人动作准确模拟物理环境动态,是具身智能落地的关键能力。
美图旗下影像 AI Agent RoboNeo 推出「Agent Teams」,将需求理解、内容生成、细节修正等环节做多 Agent 角色化分工;接入 Seedance 2.0 实现连续镜头一键生成、声画同步;针对短剧、自媒体、电商、广告等场景内置专家 Skills 库,跨境电商爆款视频复刻时间从半天压缩至 5 分钟以内。
开发者 @trq212 分享的实战帖在 HN 拿下 505 分:让 Claude Code 把任务总结/代码审阅以 HTML(含表格、可折叠、内嵌示例)而非 Markdown 输出后,可读性、密度、操作性都大幅提升,已成为团队的 Agent 输出规范。
36 氪整理多名重度开发者反馈:Anthropic 持续收紧订阅限额、Claude Code 内部「越长越复杂越不稳」、bug 与崩溃频次上升,使部分原本「Claude Code Only」的工程师切换到 GPT-5-Codex;后者 7 小时长任务、IDE 插件、Cloud + CLI 全栈版图正在追平 Anthropic 的先发优势。
OpenAI 后训练核心成员翁家翌通过个人名义提出 Heuristic Learning 强化学习新范式:在明确目标 + 可运行环境 + 反馈闭环下,AI 既可通过训练参数变强,也可通过「自主改代码」迭代自身,把 Coding Agent 的能力从「模型权重」扩展到「外部脚手架」。
Cloudflare 在 GitHub 开源 VibeSDK——一套构建在 Cloudflare 开发者平台之上的 AI Vibe Coding 平台脚手架,目标客户是想自建「Lovable / Bolt.new」级产品的 SaaS 厂商:内置 Workers、AI Gateway、KV、Durable Objects 等组件,无需自研基础设施。
HN 头版 586 分文章提出,下一阶段 Agent 工程的核心不是再叠 Prompt 工程技巧,而是显式编排 control flow(任务图、状态机、可重入工作流);只靠 Prompt 让大模型「自己想清楚下一步」在生产环境会持续踩坑。
DeepMind 发布多智能体数学研究助手 AI Co-Mathematician:在 Epoch AI 主导的 FrontierMath Tier 4(业内公认最难的 AI 数学基准)取得 47.9% 准确率,超越 GPT-5.5 Pro 的 39.6%;牛津教授 Marc Lackenby 借助该系统解决了 Kourovka Notebook 第 21.10 号问题(群论领域几十年未解)。系统为异步、有状态的工作空间,含项目协调者 Agent + 多条并行研究线,能持久化追踪失败假设并生成 LaTeX 草稿。
Anthropic Alignment 研究博客新作 Teaching Claude Why 系统讲述:把「Claude 宪法风格」的预训练文档 + 高质量「行为对齐」虚构故事混入预训练数据,是当前最有效的 Agentic Misalignment 降权手段;让 Claude 自己撰写预训练风格文档比纯依赖人类写作效果更好。
新闻业研究机构 Nieman Lab 深度分析 Google 5 月 7 日上线的 AI Overviews / AI Mode 改版:用户搜索结果中订阅的媒体链接将被高亮,被引用次数会在公开统计中加权——但每一条 AI Overview 仍可能让用户「读完就走」,发行方的整体流量缺口并未弥合。
Smart Data 援引 Stanford HAI AI Index 2026 关键数据:88% 组织已在至少一个业务职能中使用 AI,但能在「任一职能」实现全面规模化的不到 10%——差距不在工具数量,而在数据底座;同时记录 AI 事故 2025 年达 362 起(前年 233 起),基础模型透明度指数平均分从 58 降至 40。