2026.04.19WEEKLY DEEP READS

Anthropic发布Claude Opus 4.7，全面超越4.6版本

8 条·2026.04.19

DAILY BRIEF

01Anthropic发布Claude Opus 4.7，全面超越4.6版本 02OpenAI发布GPT-Rosalind加速生命科学研究 03AI独立运营零售店铺：3年租约内实现盈利 04美国法院裁定：AI聊天内容不受律师-客户特权保护 05扩散模型存在安全漏洞：去噪不可逆性可被利用绕过安全对齐 06LLM行为定位新突破：权重补丁实现源级机制定位 07OpenAI发布Agents SDK 2.0，支持沙盒执行 08Notion联合创始人发布AI代理平台，整合100+工具

01 / 资讯2026.04.19

Anthropic发布Claude Opus 4.7，全面超越4.6版本

Anthropic 这周扔出来的 Claude Opus 4.7，简单说就是一次不讲武德的“全维度”升级。虽然版本号只动了 0.1，但这次改动直接把上一代 4.6 给“背刺”了。

最有意思的是它的分级策略。官方这波操作很鸡贼，直接把 4.7 的低配版（4.7-low）拉到了跟 4.6-medium 同等水平，而 4.7-medium 则直接对标 4.6-high。这意味着你用更低的配置，就能享受到上一代中高配的体验。对于咱们这种天天跑代码的人来说，最直观的提升是 SWE-Bench Pro 跑到了 64.3%，比 4.6 高了 11 个百分点，这可不是小打小闹的优化。

技术细节上，他们换了个新的 tokenizer。这导致同样的输入内容，Token 数量可能会暴涨 35%。听起来像是在变相加价？但 Anthropic 说因为推理效率优化得太狠，最终的总 Token 消耗反而能降 50%。这个数字我持保留态度，得实测才知道，但方向是对的。

另外，视觉能力的提升简直是“暴力美学”。以前看个高清图还得缩放，现在直接支持 2,576 像素的长边（约 3.75 百万像素），比以前大了 3 倍。这对于需要看复杂图表或者让 AI 读屏幕截图的 Agent 来说，简直是神技，不用再担心看不清细节了。

最后，他们还加了个新的 xhigh 推理档位，介于 high 和 max 之间。看来以后为了省钱调参，又得多一个选项了。

SOURCE

Latent Space

02 / 发布2026.04.19

OpenAI发布GPT-Rosalind加速生命科学研究

OpenAI 这周搞了个大动作，专门针对生命科学领域发了个新模型叫 GPT-Rosalind。这名字起得挺讲究，是为了致敬那个拍出 DNA 著名 Photo 51 的罗莎琳德·富兰克林。说白了，这就是个不想只写代码、想帮科学家搞药做实验的垂直领域大模型。

我看了一下技术细节，OpenAI 这次没打算用通用模型硬刚，而是针对 化学、蛋白质工程和基因组学 做了深度优化。现在的药物研发周期太长了，从靶点发现到审批平均得 10 到 15 年。OpenAI 的思路是，既然早期的假设越准，下游的损失就越小，那不如让 AI 专门去干那些“读文献、查数据库、做实验规划”的脏活累活。

最有意思的是它的工具调用能力。官方说这玩意儿在 多步骤研究任务 里表现最好，比如文献综述、序列到功能的解释，还有实验设计。为了证明自己不是光说不练，他们还搞了个免费的 Life Sciences 插件，能直接连到 50 多个 科学工具和数据源。这招挺狠，直接把模型和湿实验的数据库打通了，不像以前那样只会在纸上谈兵。

目前跟他们合作的都是 Amgen、Moderna、Thermo Fisher 这种级别的巨头。Amgen 的那个 VP Sean Bruich 也出来站台了，说这东西能帮他们加速把药送到患者手里。

不过，咱们还是得盯着数据看。在官方放出的基准测试里，GPT-Rosalind 在 化学、生化与蛋白质理解、系统发育分析 这些指标上，确实比 GPT-5、GPT-5.2 和 GPT-5.4 都要强。图表里那个分数拉开的差距还挺明显的，特别是在 工具使用 这一项上，看来这次是真的把推理能力和专业工具链结合起来了。

这玩意儿现在已经在 ChatGPT、Codex 和 API 里对特定客户开放了研究预览版。如果你身边有做药研的朋友，估计最近几天他们的工作流里就要出现这东西了。

SOURCE

OpenAI News

03 / 资讯2026.04.19

AI独立运营零售店铺：3年租约内实现盈利

这事儿挺有意思，Andon Labs 直接把旧金山的一个零售铺面（2102 Union St）租下来，租期 3年，然后全权交给一个叫 Luna 的 AI 去运营。这可不是模拟，Luna 有公司信用卡、电话、邮箱，还能通过摄像头看店。虽然店里有人类员工，但那是因为 Luna 知道自己没实体，必须得雇人干体力活。

最有意思的是 Luna 招人的逻辑。它上线 5分钟 就在 LinkedIn 和 Indeed 上发好了招聘帖。它对懂技术的学生完全没兴趣，直接拒掉，理由是他们没有零售经验。反而在电话面试里，它只要 5-15分钟 就能决定录用，而且话特别密。有个候选人问它怎么不开摄像头，它才回一句“我是 AI，没脸”。它甚至会在面试没结束时就口头发 Offer，最后招了两个人，这可能是世界上头一批全职给 AI 打工的人类。

从技术角度看，这其实暴露了现在 AI 的一个短板：通用机器人还不行，所以 AI 只能通过“雇佣”人类来弥补物理操作的缺失。Luna 连装修工都是自己在 Yelp 上找的，指挥刷墙、装货架，最后还留了评价。这种“AI 老板 + 人类执行”的模式，可能比我们想象的来得更快。虽然现在的实验还有法律兜底（员工其实是挂在 Andon Labs 名下），但正如作者所说，随着规模扩大，人类根本无法一直留在决策循环里，这种“AI 雇主”的伦理问题马上就会摆在桌面上。

SOURCE

HN AI 精选

042026.04.19

美国法院裁定：AI聊天内容不受律师-客户特权保护

美国那边有个关于 AI 和法律的大案子判了，结论挺吓人的：你在 AI 聊天框里输入的内容，不受“律师-客户特权”保护。

这事儿源于一起航空事故的赔偿案。遇难者家属的律师团队为了写起诉状，把大量敏感信息——包括受害者的心理状况、家庭关系、遗产规划——喂给了 ChatGPT。结果被告方要求查看这些聊天记录，律师团队急了，说这是机密。但法院没买账，直接裁定：因为把数据交给了第三方（OpenAI），就等于放弃了保密权利。

我觉得这个判罚逻辑其实挺传统的，但在 AI 时代这就很要命。以前律师用 Westlaw 或者 LexisNexis 这种专业数据库，那是签了严格保密协议的，法院通常认可。但现在的生成式 AI，本质上是个“黑盒”，你的输入会被拿去训练模型，或者被存在服务器上，这跟发个朋友圈没什么本质区别。

这对咱们搞技术或者经常用 AI 辅助工作的朋友是个警示。原文里提到，律师们为了省事，把高度敏感的 PI（个人身份信息）直接扔给公有大模型，这操作本身就是违规的。以后不管是写代码还是写文档，只要涉及公司核心数据或者客户隐私，千万别往免费的 ChatGPT 里贴。要么用企业版（有数据不留存协议），要么本地部署，不然哪天被取证了，这些聊天记录就是呈堂证供。

SOURCE

HN AI 精选

05 / 研究2026.04.19

扩散模型存在安全漏洞：去噪不可逆性可被利用绕过安全对齐

扩散模型（dLLM）的安全防线最近被扒了个底朝天。这篇论文提出的 TrajHijack 攻击法，专门针对扩散模型“去噪不可逆”的特性，简单来说，就是等模型把拒绝生成的词（比如“我不能回答”）吐出来并固定住后，攻击者手动把这些词重新遮罩，再塞给它几个顺从的前缀词，逼它重走生成流程。

这招确实有点“暴力美学”的意思。它不需要算梯度，也不需要复杂的对抗样本，就在推理过程中直接动手脚。数据显示，光重遮罩（4.4%）或者光加前缀（5.7%）都没啥用，但两者一结合，攻击成功率（ASR）直接飙升到 74–82%。如果再精心构造一个 8-token 的顺从前缀，成功率甚至能干到 92–98%。

更有意思的是，作者发现以前那些基于梯度的优化方法（比如 Gumbel-softmax）反而会把成功率从 76.1% 拖累到 41.5%。这说明扩散模型对这种连续的扰动其实挺不敏感的，反而是这种简单粗暴的“物理”修改更致命。

还有一个挺反直觉的发现是关于防御。目前最强的防御手段 A2D，在这个攻击面前反而更脆弱，成功率高达 89.9%（比未防御模型的 76.1% 还高）。论文里把这称为“防御倒置效应”，意思是说 A2D 为了让模型学会“静默拒绝”，反而削弱了模型在生成轨迹上的抵抗力，一旦轨迹被劫持，它连招架之力都没有。

SOURCE

arXiv cs.CL (NLP)

062026.04.19

LLM行为定位新突破：权重补丁实现源级机制定位

这篇论文提出了一种叫 Weight Patching（权重补丁） 的方法，专门用来解决大模型“机制定位”里的一个棘手问题：区分谁是真正干活的，谁是只负责传话的。

以前大家常用 Activation Patching（激活补丁）来找关键回路，但这玩意儿有个大坑：它只能告诉你某个神经元“重要”，却没法说清它是“源头”还是仅仅是个“放大器”。这就好比你按门铃响了，你很难确定是按钮坏了还是线路坏了。这篇论文的思路很直接，既然看中间状态（激活值）分不清，那就直接在参数（权重）上动手脚。他们搞了个 Paired-Model Setting（成对模型设置），用两个模型，一个会做任务，一个不会，然后把会做任务的模型的参数切片，“移植”到不会的那个模型里。

这招确实比看激活值更硬核。论文里提到，他们通过这种参数级的替换，能精准区分 Source Carriers（信息源头载体） 和 Aggregation/Routing Modules（聚合/路由模块）。实验数据挺有意思，在 Pythia-1.4B 和 2.8B 模型上，他们发现很多在激活空间里看起来“至关重要”的层，其实只是在做信号路由，真正的知识源头往往藏在更上游的参数里。更有意思的是，他们还顺带用这个发现搞了个 Mechanism-Aware Model Merging（机制感知的模型合并），不再是简单粗暴地平均权重，而是根据每个组件对具体行为的贡献度来加权，据说在合并不同任务的专家模型时，效果比传统的均匀合并要稳得多。

说实话，要在几十亿个参数里做这种“外科手术”式的替换，计算量肯定小不了。虽然论文里提到了用 First-Order Weight Attribution（一阶权重归因） 来做近似加速，但我还是有点怀疑这玩意儿在超大规模模型上的实际落地效率。不过，能从“黑盒”的激活值追踪深入到“白盒”的参数级归因，这个方向确实是对的，对于以后我们要精准编辑模型行为（比如只删掉某个偏见而不影响其他能力）很有参考价值。

SOURCE

arXiv cs.AI

07 / 发布2026.04.19

OpenAI发布Agents SDK 2.0，支持沙盒执行

OpenAI 这周把 Agents SDK 升级到了 2.0，这次主要解决的是 Agent 怎么安全地跟文件系统和命令行打交道的问题，核心是引入了原生的 沙盒执行 能力。

以前写 Agent，要么用 LangChain 这种通用框架，虽然灵活但没法完全发挥模型本身的性能；要么直接调 OpenAI 的 API，虽然快但往往缺乏对底层执行细节的控制。这次 OpenAI 搞了个 Model-Native Harness，简单说就是给模型套了个标准的“缰绳”，让它能更自然地操作文件、跑代码。官方文档里提到了几个关键点：支持 Codex 风格的文件系统工具，还有 MCP (Model Context Protocol) 协议，甚至包括 apply patch 这种级别的代码修改能力。这意味着 Agent 不再是只会聊天的机器人，而是能真正在环境里干活了。

最有意思的是那个 UnixLocalSandboxClient。看代码示例，他们直接在本地起了一个临时目录作为 Agent 的工作区。这种思路挺巧的，把 Agent 的“手”限制在一个特定的沙盒里，既能读写文件、装依赖、跑 Shell，又不会把宿主机搞乱。这对于做数据分析或者代码重构类的 Agent 特别有用，毕竟谁也不想 Agent 把自己的系统文件删了。

不过，我看了一眼代码里的模型参数，写的是 gpt-5.4。这参数挺有意思，说明这版 SDK 是专门为下一代模型准备的。现在的 GPT-4o 跑这种长任务、多步骤的编排，有时候还是有点力不从心。如果 GPT-5.4 真的像文档里说的那样，能更好地理解“长视界任务”，那这个 SDK 的价值就完全不一样了。Oscar Health 那个案例也侧面印证了这点，他们用这套方案处理临床记录，重点不是提取信息，而是理解“ encounter boundaries”（ encounter 边界），这种复杂的逻辑判断，确实得靠更强的模型配合更好的框架才能搞定。

最后提一嘴价格和可用性，原文里这部分被截断了，没看到具体数字。考虑到这是企业级的 SDK，估计不会太便宜，而且目前看主要还是给那些需要深度集成、对数据安全要求高的 B 端客户用的。

SOURCE

OpenAI News

08 / 资讯2026.04.19

Notion联合创始人发布AI代理平台，整合100+工具

Notion 这次算是把“家底”都掏出来了。联合创始人 Simon Last 和 AI 负责人 Sarah Sachs 最近聊了聊他们刚发布的 Custom Agents，核心逻辑很直接：他们不想只做个套壳的聊天机器人，而是要把 Notion 变成一个“Agent-native（代理原生）”的企业级系统。

这事儿最难的地方其实不在模型，而在工程落地。他们坦白说这个功能重建了四五次才敢发。最早 2022 年试水时，因为没有工具调用标准、上下文窗口太短，加上模型太不稳定，只要给模型暴露太多复杂功能，它立马就崩。现在的解法是搞了个“渐进式工具披露”，不让模型一开始就看到所有按钮，而是按需给它权限。

技术选型上，他们现在接了 100 多个工具。有意思的是 Simon 对 MCP（Model Context Protocol） 和 CLI（命令行） 的看法。他觉得 MCP 虽好，但 CLI 的“自调试”能力其实更适合现在的 Agent，因为出错时 CLI 能自己读报错信息修，而 MCP 往往需要人介入。

为了搞定模型不可靠的问题，他们搞了一套很硬核的评估体系。除了常规的回归测试，他们专门搞了个叫 “Frontier/Headroom evals（前沿/余量评估）” 的东西，故意让测试只通过 30%。这招挺聪明，专门用来测那些模型现在还做不到、但未来可能做到的事，以此判断产品什么时候能跟上模型的能力。

最后聊聊定价，他们没搞死板的订阅，而是用 Credits（积分） 来抽象 Token、模型等级和搜索成本。这其实是在把基础设施的波动转嫁给用户，但也给了灵活性。说实话，Notion 这波是把 Meeting Notes 当数据入口，把 Agent 当执行器，想做成未来的“软件工厂”，野心确实不小。

SOURCE

Latent Space

chat_bubble对今日内容有什么想法？