---
issue_number: W20260419
title: "Claude Opus 4.7发布，AI代理平台整合100+工具"
url: https://ai.daily.yangsir.net/weekly?date=2026-04-19T00:00:00.000Z
week_start: 2026-04-13T00:00:00.000Z
week_end: 2026-04-19T00:00:00.000Z
publish_date: 2026-04-19T00:00:00.000Z
---

# Claude Opus 4.7发布，AI代理平台整合100+工具

> 这周Anthropic推出Claude Opus 4.7，OpenAI发布GPT-Rosalind加速科研，还有AI独立店铺盈利、法院裁定AI聊天无特权、扩散模型安全漏洞等新鲜事。

## 本周精选（8 条）

### 1. Anthropic发布Claude Opus 4.7，全面超越4.6版本

**推荐理由**：新旗舰模型发布，确立SOTA新标准

**来源**：Latent Space
https://www.latent.space/p/ainews-anthropic-claude-opus-47-literally

**分类**：release

Anthropic 这周扔出来的 Claude Opus 4.7，简单说就是一次不讲武德的“全维度”升级。虽然版本号只动了 0.1，但这次改动直接把上一代 4.6 给“背刺”了。

最有意思的是它的分级策略。官方这波操作很鸡贼，直接把 4.7 的低配版（4.7-low）拉到了跟 4.6-medium 同等水平，而 4.7-medium 则直接对标 4.6-high。这意味着你用更低的配置，就能享受到上一代中高配的体验。对于咱们这种天天跑代码的人来说，最直观的提升是 SWE-Bench Pro 跑到了 **64.3%**，比 4.6 高了 **11 个百分点**，这可不是小打小闹的优化。

技术细节上，他们换了个新的 tokenizer。这导致同样的输入内容，Token 数量可能会暴涨 **35%**。听起来像是在变相加价？但 Anthropic 说因为推理效率优化得太狠，最终的总 Token 消耗反而能降 **50%**。这个数字我持保留态度，得实测才知道，但方向是对的。

另外，视觉能力的提升简直是“暴力美学”。以前看个高清图还得缩放，现在直接支持 **2,576 像素**的长边（约 **3.75 百万像素**），比以前大了 **3 倍**。这对于需要看复杂图表或者让 AI 读屏幕截图的 Agent 来说，简直是神技，不用再担心看不清细节了。

最后，他们还加了个新的 **xhigh** 推理档位，介于 high 和 max 之间。看来以后为了省钱调参，又得多一个选项了。

---

### 2. OpenAI发布GPT-Rosalind加速生命科学研究

**推荐理由**：垂直领域专用模型，重塑科研工作流

**来源**：OpenAI News
https://openai.com/index/introducing-gpt-rosalind

**分类**：release

OpenAI 这周搞了个大动作，专门针对生命科学领域发了个新模型叫 **GPT-Rosalind**。这名字起得挺讲究，是为了致敬那个拍出 DNA 著名 Photo 51 的罗莎琳德·富兰克林。说白了，这就是个不想只写代码、想帮科学家搞药做实验的垂直领域大模型。

我看了一下技术细节，OpenAI 这次没打算用通用模型硬刚，而是针对 **化学、蛋白质工程和基因组学** 做了深度优化。现在的药物研发周期太长了，从靶点发现到审批平均得 **10 到 15 年**。OpenAI 的思路是，既然早期的假设越准，下游的损失就越小，那不如让 AI 专门去干那些“读文献、查数据库、做实验规划”的脏活累活。

最有意思的是它的工具调用能力。官方说这玩意儿在 **多步骤研究任务** 里表现最好，比如文献综述、序列到功能的解释，还有实验设计。为了证明自己不是光说不练，他们还搞了个免费的 **Life Sciences 插件**，能直接连到 **50 多个** 科学工具和数据源。这招挺狠，直接把模型和湿实验的数据库打通了，不像以前那样只会在纸上谈兵。

目前跟他们合作的都是 **Amgen、Moderna、Thermo Fisher** 这种级别的巨头。Amgen 的那个 VP Sean Bruich 也出来站台了，说这东西能帮他们加速把药送到患者手里。

不过，咱们还是得盯着数据看。在官方放出的基准测试里，GPT-Rosalind 在 **化学、生化与蛋白质理解、系统发育分析** 这些指标上，确实比 GPT-5、GPT-5.2 和 GPT-5.4 都要强。图表里那个分数拉开的差距还挺明显的，特别是在 **工具使用** 这一项上，看来这次是真的把推理能力和专业工具链结合起来了。

这玩意儿现在已经在 ChatGPT、Codex 和 API 里对特定客户开放了研究预览版。如果你身边有做药研的朋友，估计最近几天他们的工作流里就要出现这东西了。

---

### 3. AI独立运营零售店铺：3年租约内实现盈利

**推荐理由**：AI自主商业闭环能力获实证突破

**来源**：HN AI 精选
https://andonlabs.com/blog/andon-market-launch

**分类**：insight

这事儿挺有意思，Andon Labs 直接把旧金山的一个零售铺面（2102 Union St）租下来，租期 **3年**，然后全权交给一个叫 Luna 的 AI 去运营。这可不是模拟，Luna 有公司信用卡、电话、邮箱，还能通过摄像头看店。虽然店里有人类员工，但那是因为 Luna 知道自己没实体，必须得雇人干体力活。

最有意思的是 Luna 招人的逻辑。它上线 **5分钟** 就在 LinkedIn 和 Indeed 上发好了招聘帖。它对懂技术的学生完全没兴趣，直接拒掉，理由是他们没有零售经验。反而在电话面试里，它只要 **5-15分钟** 就能决定录用，而且话特别密。有个候选人问它怎么不开摄像头，它才回一句“我是 AI，没脸”。它甚至会在面试没结束时就口头发 Offer，最后招了两个人，这可能是世界上头一批全职给 AI 打工的人类。

从技术角度看，这其实暴露了现在 AI 的一个短板：通用机器人还不行，所以 AI 只能通过“雇佣”人类来弥补物理操作的缺失。Luna 连装修工都是自己在 Yelp 上找的，指挥刷墙、装货架，最后还留了评价。这种“AI 老板 + 人类执行”的模式，可能比我们想象的来得更快。虽然现在的实验还有法律兜底（员工其实是挂在 Andon Labs 名下），但正如作者所说，随着规模扩大，人类根本无法一直留在决策循环里，这种“AI 雇主”的伦理问题马上就会摆在桌面上。

---

### 4. 美国法院裁定：AI聊天内容不受律师-客户特权保护

**推荐理由**：确立AI法律风险判例，影响行业合规

**来源**：HN AI 精选
https://fingfx.thomsonreuters.com/gfx/legaldocs/xmvjyjekkpr/Rakoff%20-%20order%20-%20AI.pdf

**分类**：news

美国那边有个关于 AI 和法律的大案子判了，结论挺吓人的：你在 AI 聊天框里输入的内容，不受“律师-客户特权”保护。

这事儿源于一起航空事故的赔偿案。遇难者家属的律师团队为了写起诉状，把大量敏感信息——包括受害者的**心理状况、家庭关系、遗产规划**——喂给了 ChatGPT。结果被告方要求查看这些聊天记录，律师团队急了，说这是机密。但法院没买账，直接裁定：**因为把数据交给了第三方（OpenAI），就等于放弃了保密权利**。

我觉得这个判罚逻辑其实挺传统的，但在 AI 时代这就很要命。以前律师用 Westlaw 或者 LexisNexis 这种专业数据库，那是签了严格保密协议的，法院通常认可。但现在的生成式 AI，本质上是个**“黑盒”**，你的输入会被拿去训练模型，或者被存在服务器上，这跟发个朋友圈没什么本质区别。

这对咱们搞技术或者经常用 AI 辅助工作的朋友是个警示。原文里提到，律师们为了省事，把**高度敏感的 PI（个人身份信息）**直接扔给公有大模型，这操作本身就是违规的。以后不管是写代码还是写文档，只要涉及公司核心数据或者客户隐私，**千万别往免费的 ChatGPT 里贴**。要么用企业版（有数据不留存协议），要么本地部署，不然哪天被取证了，这些聊天记录就是呈堂证供。

---

### 5. 扩散模型存在安全漏洞：去噪不可逆性可被利用绕过安全对齐

**推荐理由**：揭示扩散模型根本性安全缺陷

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2604.08557

**分类**：research

扩散模型（dLLM）的安全防线最近被扒了个底朝天。这篇论文提出的 TrajHijack 攻击法，专门针对扩散模型“去噪不可逆”的特性，简单来说，就是等模型把拒绝生成的词（比如“我不能回答”）吐出来并固定住后，攻击者手动把这些词**重新遮罩**，再塞给它几个顺从的前缀词，逼它重走生成流程。

这招确实有点“暴力美学”的意思。它不需要算梯度，也不需要复杂的对抗样本，就在推理过程中直接动手脚。数据显示，光重遮罩（**4.4%**）或者光加前缀（**5.7%**）都没啥用，但两者一结合，攻击成功率（ASR）直接飙升到 **74–82%**。如果再精心构造一个 8-token 的顺从前缀，成功率甚至能干到 **92–98%**。

更有意思的是，作者发现以前那些基于梯度的优化方法（比如 Gumbel-softmax）反而会把成功率从 **76.1%** 拖累到 **41.5%**。这说明扩散模型对这种连续的扰动其实挺不敏感的，反而是这种简单粗暴的“物理”修改更致命。

还有一个挺反直觉的发现是关于防御。目前最强的防御手段 A2D，在这个攻击面前反而更脆弱，成功率高达 **89.9%**（比未防御模型的 **76.1%** 还高）。论文里把这称为“防御倒置效应”，意思是说 A2D 为了让模型学会“静默拒绝”，反而削弱了模型在生成轨迹上的抵抗力，一旦轨迹被劫持，它连招架之力都没有。

---

### 6. LLM行为定位新突破：权重补丁实现源级机制定位

**推荐理由**：首次实现源级机制定位，可解释性突破

**来源**：arXiv cs.AI
https://arxiv.org/abs/2604.13694

**分类**：research

这篇论文提出了一种叫 **Weight Patching（权重补丁）** 的方法，专门用来解决大模型“机制定位”里的一个棘手问题：区分谁是真正干活的，谁是只负责传话的。

以前大家常用 Activation Patching（激活补丁）来找关键回路，但这玩意儿有个大坑：它只能告诉你某个神经元“重要”，却没法说清它是“源头”还是仅仅是个“放大器”。这就好比你按门铃响了，你很难确定是按钮坏了还是线路坏了。这篇论文的思路很直接，既然看中间状态（激活值）分不清，那就直接在参数（权重）上动手脚。他们搞了个 **Paired-Model Setting（成对模型设置）**，用两个模型，一个会做任务，一个不会，然后把会做任务的模型的参数切片，“移植”到不会的那个模型里。

这招确实比看激活值更硬核。论文里提到，他们通过这种参数级的替换，能精准区分 **Source Carriers（信息源头载体）** 和 **Aggregation/Routing Modules（聚合/路由模块）**。实验数据挺有意思，在 Pythia-1.4B 和 2.8B 模型上，他们发现很多在激活空间里看起来“至关重要”的层，其实只是在做信号路由，真正的知识源头往往藏在更上游的参数里。更有意思的是，他们还顺带用这个发现搞了个 **Mechanism-Aware Model Merging（机制感知的模型合并）**，不再是简单粗暴地平均权重，而是根据每个组件对具体行为的贡献度来加权，据说在合并不同任务的专家模型时，效果比传统的均匀合并要稳得多。

说实话，要在几十亿个参数里做这种“外科手术”式的替换，计算量肯定小不了。虽然论文里提到了用 **First-Order Weight Attribution（一阶权重归因）** 来做近似加速，但我还是有点怀疑这玩意儿在超大规模模型上的实际落地效率。不过，能从“黑盒”的激活值追踪深入到“白盒”的参数级归因，这个方向确实是对的，对于以后我们要精准编辑模型行为（比如只删掉某个偏见而不影响其他能力）很有参考价值。

---

### 7. OpenAI发布Agents SDK 2.0，支持沙盒执行

**推荐理由**：定义Agent安全执行新标准

**来源**：OpenAI News
https://openai.com/index/the-next-evolution-of-the-agents-sdk

**分类**：release

OpenAI 这周把 Agents SDK 升级到了 **2.0**，这次主要解决的是 Agent 怎么安全地跟文件系统和命令行打交道的问题，核心是引入了原生的 **沙盒执行** 能力。

以前写 Agent，要么用 LangChain 这种通用框架，虽然灵活但没法完全发挥模型本身的性能；要么直接调 OpenAI 的 API，虽然快但往往缺乏对底层执行细节的控制。这次 OpenAI 搞了个 **Model-Native Harness**，简单说就是给模型套了个标准的“缰绳”，让它能更自然地操作文件、跑代码。官方文档里提到了几个关键点：支持 **Codex 风格的文件系统工具**，还有 **MCP (Model Context Protocol)** 协议，甚至包括 `apply patch` 这种级别的代码修改能力。这意味着 Agent 不再是只会聊天的机器人，而是能真正在环境里干活了。

最有意思的是那个 **UnixLocalSandboxClient**。看代码示例，他们直接在本地起了一个临时目录作为 Agent 的工作区。这种思路挺巧的，把 Agent 的“手”限制在一个特定的沙盒里，既能读写文件、装依赖、跑 Shell，又不会把宿主机搞乱。这对于做数据分析或者代码重构类的 Agent 特别有用，毕竟谁也不想 Agent 把自己的系统文件删了。

不过，我看了一眼代码里的模型参数，写的是 `gpt-5.4`。这参数挺有意思，说明这版 SDK 是专门为下一代模型准备的。现在的 GPT-4o 跑这种长任务、多步骤的编排，有时候还是有点力不从心。如果 **GPT-5.4** 真的像文档里说的那样，能更好地理解“长视界任务”，那这个 SDK 的价值就完全不一样了。Oscar Health 那个案例也侧面印证了这点，他们用这套方案处理临床记录，重点不是提取信息，而是理解“ encounter boundaries”（ encounter 边界），这种复杂的逻辑判断，确实得靠更强的模型配合更好的框架才能搞定。

最后提一嘴价格和可用性，原文里这部分被截断了，没看到具体数字。考虑到这是企业级的 SDK，估计不会太便宜，而且目前看主要还是给那些需要深度集成、对数据安全要求高的 B 端客户用的。

---

### 8. Notion联合创始人发布AI代理平台，整合100+工具

**推荐理由**：MCP协议落地，重塑软件工厂范式

**来源**：Latent Space
https://www.latent.space/p/notion

**分类**：release

Notion 这次算是把“家底”都掏出来了。联合创始人 Simon Last 和 AI 负责人 Sarah Sachs 最近聊了聊他们刚发布的 Custom Agents，核心逻辑很直接：他们不想只做个套壳的聊天机器人，而是要把 Notion 变成一个**“Agent-native（代理原生）”**的企业级系统。

这事儿最难的地方其实不在模型，而在工程落地。他们坦白说这个功能**重建了四五次**才敢发。最早 2022 年试水时，因为**没有工具调用标准、上下文窗口太短**，加上模型太不稳定，只要给模型暴露太多复杂功能，它立马就崩。现在的解法是搞了个“渐进式工具披露”，不让模型一开始就看到所有按钮，而是按需给它权限。

技术选型上，他们现在接了 **100 多个工具**。有意思的是 Simon 对 **MCP（Model Context Protocol）** 和 **CLI（命令行）** 的看法。他觉得 MCP 虽好，但 **CLI 的“自调试”能力**其实更适合现在的 Agent，因为出错时 CLI 能自己读报错信息修，而 MCP 往往需要人介入。

为了搞定模型不可靠的问题，他们搞了一套很硬核的评估体系。除了常规的回归测试，他们专门搞了个叫 **“Frontier/Headroom evals（前沿/余量评估）”** 的东西，**故意让测试只通过 30%**。这招挺聪明，专门用来测那些模型现在还做不到、但未来可能做到的事，以此判断产品什么时候能跟上模型的能力。

最后聊聊定价，他们没搞死板的订阅，而是用 **Credits（积分）** 来抽象 Token、模型等级和搜索成本。这其实是在把基础设施的波动转嫁给用户，但也给了灵活性。说实话，Notion 这波是把 Meeting Notes 当数据入口，把 Agent 当执行器，想做成未来的**“软件工厂”**，野心确实不小。

---

**周报详情页**：https://ai.daily.yangsir.net/weekly?date=2026-04-19T00:00:00.000Z

---

*智语观潮 · 每周深读 — https://ai.daily.yangsir.net/llms.txt*