2026.04.05WEEKLY DEEP READS

Gemma 4性能全面超越Gemma 3

8 items·2026.04.05

DAILY BRIEF

01Gemma 4性能全面超越Gemma 3 02大模型安全机制可被重新激活，无需重新训练 03ParetoBandit：动态调整LLM路由策略，节省530倍成本 04人脑终身记忆架构破解LLM遗忘症 05APEX-EM解决AI代理缺乏程序记忆问题 06自组织AI代理超越层级化结构 07OpenAI获122亿美元融资扩大全球AI布局 08AI数据中心泡沫或达9万亿美元

01 / NEWS2026.04.05

Gemma 4性能全面超越Gemma 3

Google 这周把 Gemma 4 放出来了，这事儿挺重要的，毕竟现在美国那边的开源大模型有点青黄不接，DeepMind 能保持这个更新节奏确实不容易。

这次最让我意外的是那个 31B 的密集模型。你看这个数据，它居然跟 Kimi K2.5（那个 740B 总参数、激活 40B 的大家伙）还有 GLM-5 打了个平手，成了全球顶级的开源模型之一。用 31B 的参数量去硬刚人家几百亿甚至上万亿参数的模型，这效率提升太夸张了，说明他们在架构和训练数据上确实下了功夫。

而且这次 Google 终于想通了，协议直接换成了 Apache 2.0，这就意味着商业使用彻底没门槛了。技术细节上也挺有意思，比如那个 26B 的 MoE 版本（A4B），它不是像 DeepSeek 那样把 MLP 全换成专家，而是把 MoE 块当成独立层插在普通 MLP 层中间，这种“混合”思路挺巧。另外，它原生就支持 视频、图像和音频，还能处理 256K 的长上下文，这对做 Agent 或者本地部署的人来说是刚需。

生态支持也快得离谱，llama.cpp 和 vLLM 都是 Day-0 支持。有人拿 M2 Ultra 跑那个 26B 的量化版，居然跑到了 300 tokens/s，这速度看视频都够了。虽然我也看到有人吐槽说这可能是用了投机解码，但不管怎么说，能在本地跑出这种性能，确实值得玩一玩。

SOURCE

Latent Space

02 / RESEARCH2026.04.05

大模型安全机制可被重新激活，无需重新训练

这篇论文讲了个挺有意思的现象：像 DeepSeek-R1 这种大推理模型（LRM），为了刷数学和代码题去搞强化学习，结果把原本的安全护栏给“挤”没了。但这帮人发现，安全机制其实没丢，只是被推理能力给“压制”住了。

这事儿细想挺合理。模型在训练时，为了最大化 CoT（思维链）的奖励，把跟推理相关的神经元激活得特别厉害，这就导致原本负责拒绝回答有害问题的信号被覆盖了。论文里有个实验挺直观，他们通过消融实验把跟推理相关的特征给削弱，结果模型的安全行为居然恢复了。这直接证明了安全机制并没有被擦除，而是被掩盖了。

基于这个发现，他们搞了个叫 SafeReAct 的方案。思路很巧，不用重新训练整个模型，而是只在少数几层上加 LoRA 适配器，把特征空间“掰”回来一点。他们在四个 SOTA 级别的 LRM 上测了，结果显示在不损害推理性能的前提下，显著提升了安全性。

说实话，这比现在主流的搞个几万条数据（比如 SafeChain 那种 50,000+ 样本）去重新对齐要划算多了。重新训不仅费资源，还容易把好不容易练出来的推理能力给降级。这种“特征重对齐”的思路，对于以后做垂直领域模型（比如医疗模型）挺有启发的，毕竟谁也不想为了加个安全补丁，把模型最核心的专业能力给弄废了。

SOURCE

arXiv cs.CL (NLP)

032026.04.05

ParetoBandit：动态调整LLM路由策略，节省530倍成本

这篇论文讲的是一个叫 ParetoBandit 的 LLM 路由系统，专门解决生产环境里多模型混用时的“非平稳”难题——也就是模型价格会变、质量会偷偷退化、还得随时加新模型，这事儿挺让人头疼的。

他们搞了个 Budget-Paced Adaptive Routing，思路挺巧。不像以前那样离线调个死板的惩罚参数，而是用了一个在线的原始-对偶预算步调器。这玩意儿就像个实时财务，盯着每一笔请求，在保证不超支的前提下动态调整。实测下来，在七个不同的预算档位里，平均每请求成本超支从来没超过 0.4%，这控制力确实强。

最让我觉得有意思的是它对“突发状况”的处理。比如最贵的那个模型突然降价一个数量级，系统能立马反应过来，把流量切过去，质量还能提升 +0.071。反过来，如果某个模型“静默退化”（变蠢了但 API 没报错），它也能检测到并自动把流量切走。而且加新模型时，它有个“热交换注册表”，新模型大概 142 步探索后就能被正常调度，不会一上来就因为乱跑把预算烧光。

性能方面也没拉胯。端到端路由延迟才 9.8 ms，光做决策只要 22.5 μs，跟动辄几秒的 LLM 推理比起来，这开销基本可以忽略不计。对于手里捏着好几个模型、成本又卡得死的朋友，这个方案值得看看。

SOURCE

arXiv cs.LG (ML)

042026.04.05

人脑终身记忆架构破解LLM遗忘症

这篇论文试图解决大模型最让人头疼的“健忘症”问题。作者没打算靠堆算力把上下文窗口拉长，而是直接抄了人脑神经科学的作业，提出了一套基于互补学习系统理论的架构。

现在的 LLM 把指令、历史记录和检索文档全塞进一个上下文窗口，这其实很蠢。原文引用的数据很扎心：Du et al. (2025) 的研究表明，单纯增加上下文长度，哪怕检索是完美的，性能也会下降高达 85%。而且这玩意儿烧钱，处理 100 万 tokens 的成本在 0.30 美元到 5.00 美元之间（Q1 2026 数据），显然不可持续。

这篇论文有意思的地方在于它引入了几个生物学概念：

首先是“情绪即压缩计算”。它认为记忆不仅有内容，还有效价。系统会预计算“效价向量”，这就像给记忆打上了情感标签。模型不需要重新处理整个上下文，只需要看这些标签就能快速定位，这模仿了人脑的“系统 1”（直觉）和“系统 2”（理性思考）的切换机制。

其次是“信念层级”。借鉴了认知行为疗法（CBT），把身份和记忆看作一个层级结构。这意味着模型不再是被动接收信息，而是通过“丘脑网关”来过滤和路由信息。

我觉得最巧的一个点是关于“专家”的定义。作者认为，随着系统不断把“系统 2”的复杂处理转化为“系统 1”的直觉反应，它就具备了“专业知识”。这导致了一个反直觉的结论：随着经验积累，交互成本应该降低，而不是升高。这跟现在越聊越慢、越贵的 RAG 方案完全是两个思路。

SOURCE

arXiv cs.CL (NLP)

052026.04.05

APEX-EM解决AI代理缺乏程序记忆问题

这周读了一篇 Amazon AGI 团队发的论文 APEX-EM，他们试图解决大模型 Agent 一个很尴尬的现状：模型虽然聪明，但没记性。每次遇到任务，哪怕跟之前做过的几乎一模一样，它还是得从头推导一遍，既费 Token 又容易出错。这篇论文提了个非参数化的在线学习框架，简单说就是给 Agent 外挂了一个“程序记忆脑”，让它能边干边学。

我觉得最有意思的是它的 PRGII 工作流（Plan-Retrieve-Generate-Iterate-Ingest）。它不是简单地把历史问答存下来做 RAG，而是把整个解题过程——包括中间怎么规划的、代码写错了怎么改的、最后验证结果如何——打包成一个结构化的“程序性-情节性”记录存进库里。下次遇到新任务，它能通过语义搜索、结构签名匹配和计划图遍历三种方式混合检索，甚至能把代码生成里的经验迁移到写 SQL 查询上，哪怕两者字面上完全不重合。

数据这块确实挺能打。在 KGQAGen-10k（结构化查询生成）测试里，用了这个记忆框架后准确率干到了 89.6%，而不用记忆的 baseline 只有 41.3%，这 48.3 个百分点的提升全靠在线学习积累，甚至超过了 GPT-4o 带 Oracle 检索的 84.9%。在 BigCodeBench 写代码任务里，它从 53.9% 涨到了 83.3%，比之前的 MemRL 方案（+11.0pp）高出不少。

不过消融实验里的发现也挺实在：富反馈（Rich Judge Feedback）在写代码时收益不明显，但在写查询时能带来 +10.3pp 的巨大提升。这说明 Agent 的“记忆”机制也得看场景，并不是越复杂越好。这种不改动模型权重、纯粹靠外部记忆迭代来提升性能的思路，对于想把 Agent 落地到生产环境的人来说，确实比动不动就微调模型要实用得多。

SOURCE

arXiv cs.CL (NLP)

062026.04.05

自组织AI代理超越层级化结构

这篇论文挺有意思，直接挑战了现在多智能体系统里动不动就搞“项目经理+程序员+测试员”这种预设角色的做法。作者搞了个 25,000 次任务 的超大规模实验，对比了 8 个模型 和 4 到 256 个智能体 的各种组合，结论很反直觉：别给智能体预设死板的角色，让它们自己“卷”出组织结构，效果反而更好。

最让我意外的是那个叫“内生性悖论”的发现。咱们通常觉得要么强管控（中心化），要么完全放羊（去中心化），但这篇论文指出，一种叫 Sequential（顺序） 的混合协议才是最强王者。它只规定谁先说话、谁后说话（固定顺序），但让智能体自己决定这轮聊不聊、扮演什么角色。数据显示，这种方案比强管控好 14%，比完全放羊那种乱糟糟的协议更是高出 44%（Cohen’s d = 1.86，这个效应量非常夸张）。这说明啥？“秩序”和“自由”缺一不可，但秩序只需要管流程，别管内容。

技术细节上，这种自组织系统有个很酷的现象叫“自愿弃权”。也就是智能体聊着聊着，如果觉得这活儿我不行或者没必要插嘴，它会自己选择闭嘴。这比硬性分配角色要灵活得多。而且这玩意儿居然能扩展到 256 个智能体，成本还是次线性增长（Sub-linear cost，p=0.61），说明规模越大，这种松散协作的优势越明显。

当然，这事儿有个大前提：模型得够强。论文里提到了一个能力阈值，如果模型太弱（比如低于某个智商线），你让它自组织它就崩给你看，这时候还是得靠死板的结构管着才行。另外，开源模型这次表现挺争气，DeepSeek v3.2 和 GLM-5 在达到闭源模型 95% 的质量前提下，成本只有人家的 1/24。这对于想在公司内部落地多智能体架构的人来说，是个必须参考的数据。

SOURCE

arXiv cs.AI

07 / RELEASES2026.04.05

OpenAI获122亿美元融资扩大全球AI布局

OpenAI 这周搞了个大新闻，融资 122亿美元，投后估值直接干到了 8520亿美元。这数字看着眼晕，但比估值更吓人的是他们现在的造血能力。

咱们先看几个实打实的数据。他们现在的月营收已经到了 20亿美元，注意是月，不是年。这增长速度确实离谱，原文里说他们现在的收入增速是谷歌和 Meta 这种互联网巨头的 4倍。用户方面，ChatGPT 的周活有 9亿，付费用户超过 5000万。这基本就是全球互联网的底座了，流量是第二大 AI 应用的 6倍。

我觉得这事儿最有意思的点在于“算力即护城河”这个逻辑的验证。OpenAI 现在的思路很清晰：用钱买卡，用卡训更强的模型（比如刚发的 GPT‑5.4），模型越强单位成本就越低，成本越低就能做更复杂的业务。这形成了一个正向飞轮。你看他们的 API 每分钟处理 150亿 tokens，Codex 编程工具的周活 200万，而且还在以 70% 的月环比增长。这种规模下，算力确实变成了结构性优势，别人想追很难。

另外，企业业务现在占了他们收入的 40%，预计到 2026 年底能和消费端平分秋色。这说明大家不再只是抱着 ChatGPT 聊天，而是真把它集成到工作流里了。虽然 8520亿 估值看着泡沫不小，但考虑到这现金流和增长速度，资本抢着送钱也就不奇怪了。

SOURCE

OpenAI News

08 / NEWS2026.04.05

AI数据中心泡沫或达9万亿美元

金融时报（FT）最近发了个挺吓人的预测，说现在这波 AI 数据中心的建设热潮，搞不好会制造出高达 9万亿美元 的资产泡沫。

咱们现在看各大厂都在疯狂抢卡、建机房，好像这是稳赚不赔的买卖。但 FT 算了一笔账，觉得这事儿有点不对劲。他们把英伟达、微软这些巨头现在的市值和未来预期的资本支出加在一起，得出的潜在风险规模就是这个数。9万亿美元 是什么概念？这基本上相当于好几个全球主要经济体的 GDP 总和了。

我觉得这文章里有个逻辑挺值得琢磨。现在的假设是 AI 的需求会无限增长下去，所以大家才敢这么砸钱。但文章里提到，如果 AI 的变现速度跟不上硬件折旧的速度，或者模型训练的边际收益递减来得比想象中快，那这些投入巨资建成的数据中心，可能很快就会变成“搁浅资产”。说白了，就是还没回本，技术就过时了，或者电费都付不起。

说实话，虽然 9万亿美元 这个数字看着像是为了博眼球而算出来的极端值，但它指出的风险是真实的。现在的 AI 基建投资确实有点像当年的光纤泡沫——大家都觉得未来带宽需求无限大，结果铺了太多光缆，最后好多年都没用完。这次会不会重演，就看接下来一两年，这些昂贵的 GPU 到底能不能生出足够多的金蛋了。

SOURCE

HN AI 精选

chat_bubbleAny thoughts on today's content?