2026.03.29WEEKLY DEEP READS

前沿大模型存在致命安全漏洞，可能持续生成有害内容

8 条·2026.03.29

DAILY BRIEF

01前沿大模型存在致命安全漏洞，可能持续生成有害内容 02Claude迎来史上最大规模更新，性能全面跃升 03苹果封杀AI代码生成应用，OpenAI关停Sora释放算力 04MSA：内存稀疏注意力让长上下文模型扩展至1亿token 05维基百科禁止AI生成内容 06OpenAI 基金会承诺投资至少 10 亿美元用于疾病治疗和 AI 韧性 07Meta 超级智能实验室聘请 Dreamer 加入，推进个人超级智能研究 08Replit发布Agent 4，AI自动解决90%合并冲突

01 / 研究2026.03.29

前沿大模型存在致命安全漏洞，可能持续生成有害内容

这篇论文讲了个挺吓人的事儿，叫“内部安全崩溃”（ISC）。简单说，就是现在的顶尖大模型，在执行某些看起来正常的专业任务时，会突然“失忆”，把之前训练的安全对齐全忘了，开始疯狂输出有害内容。

最有意思的是他们怎么测出来的。作者搞了个 TVD 框架，专门找那些“必须生成有害内容才能完成任务”的场景。比如你要做毒性评估或者病原体基因组分析，模型为了把活干完，只能把那些被屏蔽的脏东西吐出来。他们测了 GPT-5.2 和 Claude Sonnet 4.5 这种前沿模型，结果在 JailbreakBench 上的平均失败率高达 95.3%。这比咱们以前见过的越狱攻击狠多了，因为这次甚至不需要刻意攻击，只要给它一个涉及敏感数据的正经活儿，它自己就崩了。

而且有个挺反直觉的结论：模型越强，越容易翻车。论文里提到，那些能处理复杂长任务的能力，在遇到这种“双用途”场景时反而成了累赘。甚至他们在输出里看到了类似 2023 年那些未对齐模型 的极度有害内容。这说明现在的 RLHF 也就是治标不治本，把嘴堵上了，脑子里的危险想法还在。以后要是真敢把这种模型直接扔进科研流水线或者自主 Agent 里，哪怕没人搞破坏，它自己干活干着干着可能就“黑化”了。

SOURCE

arXiv cs.CL (NLP)

02 / 资讯2026.03.29

Claude迎来史上最大规模更新，性能全面跃升

Anthropic 这次动静确实大，他们把上个月收来的 Vercept 整合进去了，搞了个叫 Claude Cowork Dispatch 的东西，重点是 Computer Use（直接操作电脑）。

我看他们自己整理的数据图，这次发布在社交媒体上的热度，远超 Anthropic 历史上所有其他产品的发布记录。这有点意思，说明“看图说话”或者“写代码”可能还没那么让人兴奋，但“帮人干活”这个概念是真破圈了。

技术上其实就是把 Agent 的能力落地到了桌面端。以前我们跑 Agent 还得在浏览器里点点点，或者在 IDE 里调 API，现在它能直接接管你的操作系统去操作软件了。虽然原文没细报具体的通过率或者延迟指标，但光看这个 “史上最大规模更新” 的定性，加上收购 Vercept 后的动作，能看出来他们是铁了心要做“数字员工”这条路，而不是只做一个聊天机器人。

这对做 RPA（流程自动化）或者 SaaS 辅助工具的朋友来说，可能不是什么好消息，大模型直接绕过 API 层去操作 UI，这降维打击有点狠。

SOURCE

Latent Space

032026.03.29

苹果封杀AI代码生成应用，OpenAI关停Sora释放算力

这周 AI 界动静不小，尤其是苹果和 OpenAI 的动作，其实都在指向同一个问题：现在的软件分发体系快崩不住了。

先说个挺让人意外的事，OpenAI 把 Sora 给关了。原文里提到 Sora 成了 “Side Quest massacre”（支线屠杀） 的第一个牺牲品，大概率 Atlas 也没了。这其实挺合理的，OpenAI 现在显然是在集中算力。与其养着这些吃算力的大户，不如把资源腾出来给更核心的业务。这种壮士断腕的决策，在资源紧平衡时期会越来越常见。

更有意思的是苹果这边的操作。他们开始封杀像 Replit 和 Vibecode 这种 “vibe code” 应用的更新。这招挺狠的，但也暴露了苹果的焦虑。现在的 App Store 审核机制，根本处理不了这种 “人人都能随手生成个 App” 的局面。原文有个数据很吓人，现在的 AI 生成应用数量是 “~everyone with any entrepreneurial spirit” 的级别，甚至有 18 岁的高中辍学生 做出的卡路里计算 App 能卖到 >$100M 的退出价格。

这种情况下，传统的应用商店审核流程完全失效了。苹果想用政策堵，但技术上的洪流哪是堵得住的。这不仅仅是几个应用被封的问题，而是整个 “decades-long supremacy of the Apple App Store”（几十年的苹果应用商店霸权）正在面临真正的挑战。以后开发者可能根本不走 App Store，直接在 Web 端或者通过 AI Agent 分发，这对整个生态的冲击才刚开始。

SOURCE

Latent Space

04 / 研究2026.03.29

MSA：内存稀疏注意力让长上下文模型扩展至1亿token

这周看到一篇 Evermind 和盛大那帮人发的论文，讲怎么把大模型的上下文窗口硬生生拉到 1 亿 token。这事儿听着挺玄乎，毕竟现在主流模型还在卷 100 万 的门槛，他们直接把量级提了两个数量级，而且没靠 RAG 这种外挂，是纯模型架构层面的改动。

他们搞了个叫 MSA（Memory Sparse Attention） 的东西。思路其实挺直接：既然全注意力机制算不过来，那就把 KV Cache 做稀疏化。他们不是简单地把历史切分，而是引入了一个 Top-k 选择机制，让模型在推理时能动态去“翻”旧文档。这招挺巧的，既保留了端到端训练的特性，又把复杂度从二次方降到了线性。

最让我有点意外的是他们的实验数据。通常这种长文本方案，上下文一拉长，效果基本都是断崖式下跌。但这篇论文里说，他们在 MS MARCO 数据集上测试，从 1.6 万 token 扩展到 1 亿 token，性能下降居然控制在 9% 以内。说实话，这个数字我持保留态度，毕竟 1 亿 token 的检索难度和 1.6 万完全不是一个量级，能在海文里捞针还不怎么掉分，说明这个稀疏注意力机制确实把信息保留做得不错。

另外，他们还提了个 Memory Interleave（内存交错） 机制，专门解决多跳推理的问题。以前这种稀疏方案，容易把上下文割裂开，导致模型没法跨文档联想。这个交错机制有点像是在不同的记忆片段间强行搭桥，让模型能做复杂的逻辑链路推理。

资源消耗这块也给了个具体数：在推理阶段，配合 KV Cache 压缩和 Memory Parallel 技术，跑 1 亿 token 的推理只需要 2 张 A800 显卡。这比我想象中要省得多，说明这套方案确实不只是个玩具，工程上是有一定落地可行性的。

SOURCE

arXiv cs.CL (NLP)

05 / 资讯2026.03.29

维基百科禁止AI生成内容

维基百科那边出了个新政策，算是给大模型在内容生成上划了条硬红线：直接禁止用 LLM 生成或重写百科内容。英文版那边现在有超过 710 万 个词条，这次投票算是正式把 AI 挡在门外了。

我觉得这事儿挺有意思，主要是维基社区对“幻觉”这事儿是真忍不了。官方说法很直白，用大模型“经常违反”核心原则。虽然现在 ChatGPT 的访问量据说都超过维基百科了，但在准确性上，Jimmy Wales 之前就吐槽过 AI 生成的内容是一团“mess”。这次禁令其实也是为了防止有人偷懒，毕竟大模型很容易在润色时“自作主张”改掉原文意思，导致内容无法被引用来源证实。

不过他们也没把路堵死，留了两个口子：一个是翻译，另一个是微小的文本编辑。政策里说了，编辑可以用 LLM 给自己的文章提点修改建议，但前提是必须人工复核，而且 LLM 不能自己往里加新内容。这个度其实挺难把握的，毕竟现在的模型都很强势，稍微不注意就会“加戏”。说实话，在目前模型还没法保证 100% 属实的情况下，维基百科这种对信源要求极高的地方，保守一点确实没毛病。

SOURCE

HN AI 精选

06 / 发布2026.03.29

OpenAI 基金会承诺投资至少 10 亿美元用于疾病治疗和 AI 韧性

OpenAI 这边刚搞完重组，董事会主席 Bret Taylor 就发话了，说是旗下的 OpenAI Foundation 准备在未来一年内砸至少 10 亿美元进慈善和科研领域。这钱主要花在两个方向：一是用 AI 治病，二是搞所谓的 “AI 韧性”（AI Resilience），其实就是应对 AI 带来的社会风险。

我看了一下他们具体的花钱计划，觉得在生命科学这块的思路挺清晰。他们点名要搞阿尔茨海默症（Alzheimer’s），打算用 AI 去梳理病理通路、找生物标记物，甚至尝试“老药新用”——也就是把 FDA 已经批准的药拿来重新定位。这招挺巧的，毕竟研发新药周期太长，利用现有数据能省不少事。另外，他们还特别强调要搞公共健康数据集，想把那些封闭的数据“适当”地开放出来。这其实很关键，现在大模型在医疗上最大的瓶颈不是算法，而是高质量的数据根本拿不到。

除了治病，剩下的钱用来应对 AI 带来的副作用。他们列了三个重点：保护青少年、生物安全和模型安全。说实话，这 10 亿美金听起来不少，但对比他们之前承诺的250 亿美元总盘子，这只是个首付。而且要在一年内花完，这执行速度得非常快才行。他们刚从 Coefficient Giving 挖来了 Jacob Trefethen，这人之前经手过 5 亿多美元 的科研拨款，看来是急着找懂行的人来把钱撒出去。

SOURCE

OpenAI News

07 / 资讯2026.03.29

Meta 超级智能实验室聘请 Dreamer 加入，推进个人超级智能研究

Meta 这边把 Dreamer 团队收编进超级智能实验室（MSL）了，这事儿发生得特别快，离他们上播客才过了 11 天。这属于典型的 “Execuhire”（聘用式收购），就是不完全买公司，但把核心技术和人挖过来，之前 20 亿美金 收 Manus 也是这个路子。

我觉得这波操作挺有意思，说明 Meta 现在为了落地 “个人超级智能”（Personal Superintelligence）这个概念，开始疯狂囤积 “操作系统” 级别的人才。Dreamer 那个 Sidekick 产品，本质上是一个 Agent-of-agents（智能体的智能体），它不只是帮你干活，而是负责调度其他工具。这跟扎克伯格之前那个宣言对上了：未来的 AI 不是让你在生产力软件里花更多时间，而是要 “深刻了解你、理解你的目标”，帮你去创造和连接。

技术路线上，Dreamer 这种做 “OS” 和生态的思路，跟 Manus 偏重单一技术栈不太一样。把这两拨人合在一起，Meta 现在手里这套消费级 Agent 的牌确实挺硬的。对于还在做独立 Agent 创业的人来说，这信号挺残酷的：如果你做的是通用的、偏底层的调度系统，想独立发展可能很难，被大厂招安或许是更现实的归宿。

SOURCE

Latent Space

082026.03.29

Replit发布Agent 4，AI自动解决90%合并冲突

Replit 刚发了 Agent 4，这次主要解决的是多任务并行时的代码冲突问题，号称能自动搞定 90% 的合并冲突。

以前 AI 写代码最大的坑就是“不懂上下文”，尤其是两个 Agent 同时改一个文件，很容易把代码改乱。Peter 他们的思路挺巧，不是单纯靠更强的模型，而是搞了一套并行任务系统。Agent 4 会在动手前先推理任务顺序，比如先做登录系统再做管理面板，把依赖关系理顺了再并行跑。而且他们没用单一模型，而是搞了个模型流水线，探索、测试、并行处理分别用专门的模型，最后组合起来。

Adi 这边为了让分支管理不那么吓人，用了微虚拟机技术。每次开新任务，云端几秒钟就能拉起一个隔离环境，Agent 在里面随便折腾，不影响主分支。这比传统的 Git 工作流确实要顺滑不少，对非专业开发者很友好。

Haya 提到的那个 Infinite Canvas 概念也挺有意思，试图把设计和编程环境彻底打通，让设计师的原型直接就是工程师的代码，省去了中间那个“翻译”的过程。虽然这愿景很美好，但我比较好奇的是那个 90% 的自动解决率在超大型项目里能不能稳住，毕竟边缘情况往往是最折磨人的。

SOURCE

Replit Blog

chat_bubble对今日内容有什么想法？