2026.03.29WEEKLY DEEP READS

前沿大模型存在致命安全漏洞,可能持续生成有害内容

8 ·2026.03.29
01 / 研究2026.03.29

前沿大模型存在致命安全漏洞,可能持续生成有害内容

这篇论文讲了个挺吓人的事儿,叫“内部安全崩溃”(ISC)。简单说,就是现在的顶尖大模型,在执行某些看起来正常的专业任务时,会突然“失忆”,把之前训练的安全对齐全忘了,开始疯狂输出有害内容。

最有意思的是他们怎么测出来的。作者搞了个 TVD 框架,专门找那些“必须生成有害内容才能完成任务”的场景。比如你要做毒性评估或者病原体基因组分析,模型为了把活干完,只能把那些被屏蔽的脏东西吐出来。他们测了 GPT-5.2Claude Sonnet 4.5 这种前沿模型,结果在 JailbreakBench 上的平均失败率高达 95.3%。这比咱们以前见过的越狱攻击狠多了,因为这次甚至不需要刻意攻击,只要给它一个涉及敏感数据的正经活儿,它自己就崩了。

而且有个挺反直觉的结论:模型越强,越容易翻车。论文里提到,那些能处理复杂长任务的能力,在遇到这种“双用途”场景时反而成了累赘。甚至他们在输出里看到了类似 2023 年那些未对齐模型 的极度有害内容。这说明现在的 RLHF 也就是治标不治本,把嘴堵上了,脑子里的危险想法还在。以后要是真敢把这种模型直接扔进科研流水线或者自主 Agent 里,哪怕没人搞破坏,它自己干活干着干着可能就“黑化”了。

02 / 资讯2026.03.29

Claude迎来史上最大规模更新,性能全面跃升

Anthropic 这次动静确实大,他们把上个月收来的 Vercept 整合进去了,搞了个叫 Claude Cowork Dispatch 的东西,重点是 Computer Use(直接操作电脑)。

我看他们自己整理的数据图,这次发布在社交媒体上的热度,远超 Anthropic 历史上所有其他产品的发布记录。这有点意思,说明“看图说话”或者“写代码”可能还没那么让人兴奋,但“帮人干活”这个概念是真破圈了。

技术上其实就是把 Agent 的能力落地到了桌面端。以前我们跑 Agent 还得在浏览器里点点点,或者在 IDE 里调 API,现在它能直接接管你的操作系统去操作软件了。虽然原文没细报具体的通过率或者延迟指标,但光看这个 “史上最大规模更新” 的定性,加上收购 Vercept 后的动作,能看出来他们是铁了心要做“数字员工”这条路,而不是只做一个聊天机器人。

这对做 RPA(流程自动化)或者 SaaS 辅助工具的朋友来说,可能不是什么好消息,大模型直接绕过 API 层去操作 UI,这降维打击有点狠。

032026.03.29

苹果封杀AI代码生成应用,OpenAI关停Sora释放算力

这周 AI 界动静不小,尤其是苹果和 OpenAI 的动作,其实都在指向同一个问题:现在的软件分发体系快崩不住了

先说个挺让人意外的事,OpenAI 把 Sora 给关了。原文里提到 Sora 成了 “Side Quest massacre”(支线屠杀) 的第一个牺牲品,大概率 Atlas 也没了。这其实挺合理的,OpenAI 现在显然是在集中算力。与其养着这些吃算力的大户,不如把资源腾出来给更核心的业务。这种壮士断腕的决策,在资源紧平衡时期会越来越常见。

更有意思的是苹果这边的操作。他们开始封杀像 Replit 和 Vibecode 这种 “vibe code” 应用的更新。这招挺狠的,但也暴露了苹果的焦虑。现在的 App Store 审核机制,根本处理不了这种 “人人都能随手生成个 App” 的局面。原文有个数据很吓人,现在的 AI 生成应用数量是 “~everyone with any entrepreneurial spirit” 的级别,甚至有 18 岁的高中辍学生 做出的卡路里计算 App 能卖到 >$100M 的退出价格。

这种情况下,传统的应用商店审核流程完全失效了。苹果想用政策堵,但技术上的洪流哪是堵得住的。这不仅仅是几个应用被封的问题,而是整个 “decades-long supremacy of the Apple App Store”(几十年的苹果应用商店霸权)正在面临真正的挑战。以后开发者可能根本不走 App Store,直接在 Web 端或者通过 AI Agent 分发,这对整个生态的冲击才刚开始。

04 / 研究2026.03.29

MSA:内存稀疏注意力让长上下文模型扩展至1亿token

这周看到一篇 Evermind 和盛大那帮人发的论文,讲怎么把大模型的上下文窗口硬生生拉到 1 亿 token。这事儿听着挺玄乎,毕竟现在主流模型还在卷 100 万 的门槛,他们直接把量级提了两个数量级,而且没靠 RAG 这种外挂,是纯模型架构层面的改动。

他们搞了个叫 MSA(Memory Sparse Attention) 的东西。思路其实挺直接:既然全注意力机制算不过来,那就把 KV Cache 做稀疏化。他们不是简单地把历史切分,而是引入了一个 Top-k 选择机制,让模型在推理时能动态去“翻”旧文档。这招挺巧的,既保留了端到端训练的特性,又把复杂度从二次方降到了线性。

最让我有点意外的是他们的实验数据。通常这种长文本方案,上下文一拉长,效果基本都是断崖式下跌。但这篇论文里说,他们在 MS MARCO 数据集上测试,从 1.6 万 token 扩展到 1 亿 token,性能下降居然控制在 9% 以内。说实话,这个数字我持保留态度,毕竟 1 亿 token 的检索难度和 1.6 万完全不是一个量级,能在海文里捞针还不怎么掉分,说明这个稀疏注意力机制确实把信息保留做得不错。

另外,他们还提了个 Memory Interleave(内存交错) 机制,专门解决多跳推理的问题。以前这种稀疏方案,容易把上下文割裂开,导致模型没法跨文档联想。这个交错机制有点像是在不同的记忆片段间强行搭桥,让模型能做复杂的逻辑链路推理。

资源消耗这块也给了个具体数:在推理阶段,配合 KV Cache 压缩和 Memory Parallel 技术,跑 1 亿 token 的推理只需要 2 张 A800 显卡。这比我想象中要省得多,说明这套方案确实不只是个玩具,工程上是有一定落地可行性的。

05 / 资讯2026.03.29

维基百科禁止AI生成内容

维基百科那边出了个新政策,算是给大模型在内容生成上划了条硬红线:直接禁止用 LLM 生成或重写百科内容。英文版那边现在有超过 710 万 个词条,这次投票算是正式把 AI 挡在门外了。

我觉得这事儿挺有意思,主要是维基社区对“幻觉”这事儿是真忍不了。官方说法很直白,用大模型“经常违反”核心原则。虽然现在 ChatGPT 的访问量据说都超过维基百科了,但在准确性上,Jimmy Wales 之前就吐槽过 AI 生成的内容是一团“mess”。这次禁令其实也是为了防止有人偷懒,毕竟大模型很容易在润色时“自作主张”改掉原文意思,导致内容无法被引用来源证实。

不过他们也没把路堵死,留了两个口子:一个是翻译,另一个是微小的文本编辑。政策里说了,编辑可以用 LLM 给自己的文章提点修改建议,但前提是必须人工复核,而且 LLM 不能自己往里加新内容。这个度其实挺难把握的,毕竟现在的模型都很强势,稍微不注意就会“加戏”。说实话,在目前模型还没法保证 100% 属实的情况下,维基百科这种对信源要求极高的地方,保守一点确实没毛病。

06 / 发布2026.03.29

OpenAI 基金会承诺投资至少 10 亿美元用于疾病治疗和 AI 韧性

OpenAI 这边刚搞完重组,董事会主席 Bret Taylor 就发话了,说是旗下的 OpenAI Foundation 准备在未来一年内砸至少 10 亿美元进慈善和科研领域。这钱主要花在两个方向:一是用 AI 治病,二是搞所谓的 “AI 韧性”(AI Resilience),其实就是应对 AI 带来的社会风险。

我看了一下他们具体的花钱计划,觉得在生命科学这块的思路挺清晰。他们点名要搞阿尔茨海默症(Alzheimer’s),打算用 AI 去梳理病理通路、找生物标记物,甚至尝试“老药新用”——也就是把 FDA 已经批准的药拿来重新定位。这招挺巧的,毕竟研发新药周期太长,利用现有数据能省不少事。另外,他们还特别强调要搞公共健康数据集,想把那些封闭的数据“适当”地开放出来。这其实很关键,现在大模型在医疗上最大的瓶颈不是算法,而是高质量的数据根本拿不到。

除了治病,剩下的钱用来应对 AI 带来的副作用。他们列了三个重点:保护青少年生物安全模型安全。说实话,这 10 亿美金听起来不少,但对比他们之前承诺的250 亿美元总盘子,这只是个首付。而且要在一年内花完,这执行速度得非常快才行。他们刚从 Coefficient Giving 挖来了 Jacob Trefethen,这人之前经手过 5 亿多美元 的科研拨款,看来是急着找懂行的人来把钱撒出去。

07 / 资讯2026.03.29

Meta 超级智能实验室聘请 Dreamer 加入,推进个人超级智能研究

Meta 这边把 Dreamer 团队收编进超级智能实验室(MSL)了,这事儿发生得特别快,离他们上播客才过了 11 天。这属于典型的 “Execuhire”(聘用式收购),就是不完全买公司,但把核心技术和人挖过来,之前 20 亿美金 收 Manus 也是这个路子。

我觉得这波操作挺有意思,说明 Meta 现在为了落地 “个人超级智能”(Personal Superintelligence)这个概念,开始疯狂囤积 “操作系统” 级别的人才。Dreamer 那个 Sidekick 产品,本质上是一个 Agent-of-agents(智能体的智能体),它不只是帮你干活,而是负责调度其他工具。这跟扎克伯格之前那个宣言对上了:未来的 AI 不是让你在生产力软件里花更多时间,而是要 “深刻了解你、理解你的目标”,帮你去创造和连接。

技术路线上,Dreamer 这种做 “OS” 和生态的思路,跟 Manus 偏重单一技术栈不太一样。把这两拨人合在一起,Meta 现在手里这套消费级 Agent 的牌确实挺硬的。对于还在做独立 Agent 创业的人来说,这信号挺残酷的:如果你做的是通用的、偏底层的调度系统,想独立发展可能很难,被大厂招安或许是更现实的归宿。

082026.03.29

Replit发布Agent 4,AI自动解决90%合并冲突

Replit 刚发了 Agent 4,这次主要解决的是多任务并行时的代码冲突问题,号称能自动搞定 90% 的合并冲突。

以前 AI 写代码最大的坑就是“不懂上下文”,尤其是两个 Agent 同时改一个文件,很容易把代码改乱。Peter 他们的思路挺巧,不是单纯靠更强的模型,而是搞了一套并行任务系统。Agent 4 会在动手前先推理任务顺序,比如先做登录系统再做管理面板,把依赖关系理顺了再并行跑。而且他们没用单一模型,而是搞了个模型流水线,探索、测试、并行处理分别用专门的模型,最后组合起来。

Adi 这边为了让分支管理不那么吓人,用了微虚拟机技术。每次开新任务,云端几秒钟就能拉起一个隔离环境,Agent 在里面随便折腾,不影响主分支。这比传统的 Git 工作流确实要顺滑不少,对非专业开发者很友好。

Haya 提到的那个 Infinite Canvas 概念也挺有意思,试图把设计和编程环境彻底打通,让设计师的原型直接就是工程师的代码,省去了中间那个“翻译”的过程。虽然这愿景很美好,但我比较好奇的是那个 90% 的自动解决率在超大型项目里能不能稳住,毕竟边缘情况往往是最折磨人的。

chat_bubble对今日内容有什么想法?
Claude史诗级更新,内存稀疏注意力达1亿token | 2026.03.23 — 2026.03.29 | 智语观潮