2026.04.05WEEKLY DEEP READS

Gemma 4性能全面超越Gemma 3

8 items·2026.04.05
01 / NEWS2026.04.05

Gemma 4性能全面超越Gemma 3

Google 这周把 Gemma 4 放出来了,这事儿挺重要的,毕竟现在美国那边的开源大模型有点青黄不接,DeepMind 能保持这个更新节奏确实不容易。

这次最让我意外的是那个 31B 的密集模型。你看这个数据,它居然跟 Kimi K2.5(那个 740B 总参数、激活 40B 的大家伙)还有 GLM-5 打了个平手,成了全球顶级的开源模型之一。用 31B 的参数量去硬刚人家几百亿甚至上万亿参数的模型,这效率提升太夸张了,说明他们在架构和训练数据上确实下了功夫。

而且这次 Google 终于想通了,协议直接换成了 Apache 2.0,这就意味着商业使用彻底没门槛了。技术细节上也挺有意思,比如那个 26B 的 MoE 版本(A4B),它不是像 DeepSeek 那样把 MLP 全换成专家,而是把 MoE 块当成独立层插在普通 MLP 层中间,这种“混合”思路挺巧。另外,它原生就支持 视频、图像和音频,还能处理 256K 的长上下文,这对做 Agent 或者本地部署的人来说是刚需。

生态支持也快得离谱,llama.cppvLLM 都是 Day-0 支持。有人拿 M2 Ultra 跑那个 26B 的量化版,居然跑到了 300 tokens/s,这速度看视频都够了。虽然我也看到有人吐槽说这可能是用了投机解码,但不管怎么说,能在本地跑出这种性能,确实值得玩一玩。

02 / RESEARCH2026.04.05

大模型安全机制可被重新激活,无需重新训练

这篇论文讲了个挺有意思的现象:像 DeepSeek-R1 这种大推理模型(LRM),为了刷数学和代码题去搞强化学习,结果把原本的安全护栏给“挤”没了。但这帮人发现,安全机制其实没丢,只是被推理能力给“压制”住了

这事儿细想挺合理。模型在训练时,为了最大化 CoT(思维链)的奖励,把跟推理相关的神经元激活得特别厉害,这就导致原本负责拒绝回答有害问题的信号被覆盖了。论文里有个实验挺直观,他们通过消融实验把跟推理相关的特征给削弱,结果模型的安全行为居然恢复了。这直接证明了安全机制并没有被擦除,而是被掩盖了

基于这个发现,他们搞了个叫 SafeReAct 的方案。思路很巧,不用重新训练整个模型,而是只在少数几层上加 LoRA 适配器,把特征空间“掰”回来一点。他们在四个 SOTA 级别的 LRM 上测了,结果显示在不损害推理性能的前提下,显著提升了安全性

说实话,这比现在主流的搞个几万条数据(比如 SafeChain 那种 50,000+ 样本)去重新对齐要划算多了。重新训不仅费资源,还容易把好不容易练出来的推理能力给降级。这种“特征重对齐”的思路,对于以后做垂直领域模型(比如医疗模型)挺有启发的,毕竟谁也不想为了加个安全补丁,把模型最核心的专业能力给弄废了。

032026.04.05

ParetoBandit:动态调整LLM路由策略,节省530倍成本

这篇论文讲的是一个叫 ParetoBandit 的 LLM 路由系统,专门解决生产环境里多模型混用时的“非平稳”难题——也就是模型价格会变、质量会偷偷退化、还得随时加新模型,这事儿挺让人头疼的。

他们搞了个 Budget-Paced Adaptive Routing,思路挺巧。不像以前那样离线调个死板的惩罚参数,而是用了一个在线的原始-对偶预算步调器。这玩意儿就像个实时财务,盯着每一笔请求,在保证不超支的前提下动态调整。实测下来,在七个不同的预算档位里,平均每请求成本超支从来没超过 0.4%,这控制力确实强。

最让我觉得有意思的是它对“突发状况”的处理。比如最贵的那个模型突然降价一个数量级,系统能立马反应过来,把流量切过去,质量还能提升 +0.071。反过来,如果某个模型“静默退化”(变蠢了但 API 没报错),它也能检测到并自动把流量切走。而且加新模型时,它有个“热交换注册表”,新模型大概 142 步探索后就能被正常调度,不会一上来就因为乱跑把预算烧光。

性能方面也没拉胯。端到端路由延迟才 9.8 ms,光做决策只要 22.5 μs,跟动辄几秒的 LLM 推理比起来,这开销基本可以忽略不计。对于手里捏着好几个模型、成本又卡得死的朋友,这个方案值得看看。

042026.04.05

人脑终身记忆架构破解LLM遗忘症

这篇论文试图解决大模型最让人头疼的“健忘症”问题。作者没打算靠堆算力把上下文窗口拉长,而是直接抄了人脑神经科学的作业,提出了一套基于互补学习系统理论的架构。

现在的 LLM 把指令、历史记录和检索文档全塞进一个上下文窗口,这其实很蠢。原文引用的数据很扎心:Du et al. (2025) 的研究表明,单纯增加上下文长度,哪怕检索是完美的,性能也会下降高达 85%。而且这玩意儿烧钱,处理 100 万 tokens 的成本在 0.30 美元到 5.00 美元之间(Q1 2026 数据),显然不可持续。

这篇论文有意思的地方在于它引入了几个生物学概念:

首先是“情绪即压缩计算”。它认为记忆不仅有内容,还有效价。系统会预计算“效价向量”,这就像给记忆打上了情感标签。模型不需要重新处理整个上下文,只需要看这些标签就能快速定位,这模仿了人脑的“系统 1”(直觉)和“系统 2”(理性思考)的切换机制。

其次是“信念层级”。借鉴了认知行为疗法(CBT),把身份和记忆看作一个层级结构。这意味着模型不再是被动接收信息,而是通过“丘脑网关”来过滤和路由信息。

我觉得最巧的一个点是关于“专家”的定义。作者认为,随着系统不断把“系统 2”的复杂处理转化为“系统 1”的直觉反应,它就具备了“专业知识”。这导致了一个反直觉的结论:随着经验积累,交互成本应该降低,而不是升高。这跟现在越聊越慢、越贵的 RAG 方案完全是两个思路。

052026.04.05

APEX-EM解决AI代理缺乏程序记忆问题

这周读了一篇 Amazon AGI 团队发的论文 APEX-EM,他们试图解决大模型 Agent 一个很尴尬的现状:模型虽然聪明,但没记性。每次遇到任务,哪怕跟之前做过的几乎一模一样,它还是得从头推导一遍,既费 Token 又容易出错。这篇论文提了个非参数化的在线学习框架,简单说就是给 Agent 外挂了一个“程序记忆脑”,让它能边干边学。

我觉得最有意思的是它的 PRGII 工作流(Plan-Retrieve-Generate-Iterate-Ingest)。它不是简单地把历史问答存下来做 RAG,而是把整个解题过程——包括中间怎么规划的、代码写错了怎么改的、最后验证结果如何——打包成一个结构化的“程序性-情节性”记录存进库里。下次遇到新任务,它能通过语义搜索、结构签名匹配和计划图遍历三种方式混合检索,甚至能把代码生成里的经验迁移到写 SQL 查询上,哪怕两者字面上完全不重合。

数据这块确实挺能打。在 KGQAGen-10k(结构化查询生成)测试里,用了这个记忆框架后准确率干到了 89.6%,而不用记忆的 baseline 只有 41.3%,这 48.3 个百分点的提升全靠在线学习积累,甚至超过了 GPT-4o 带 Oracle 检索的 84.9%。在 BigCodeBench 写代码任务里,它从 53.9% 涨到了 83.3%,比之前的 MemRL 方案(+11.0pp)高出不少。

不过消融实验里的发现也挺实在:富反馈(Rich Judge Feedback)在写代码时收益不明显,但在写查询时能带来 +10.3pp 的巨大提升。这说明 Agent 的“记忆”机制也得看场景,并不是越复杂越好。这种不改动模型权重、纯粹靠外部记忆迭代来提升性能的思路,对于想把 Agent 落地到生产环境的人来说,确实比动不动就微调模型要实用得多。

062026.04.05

自组织AI代理超越层级化结构

这篇论文挺有意思,直接挑战了现在多智能体系统里动不动就搞“项目经理+程序员+测试员”这种预设角色的做法。作者搞了个 25,000 次任务 的超大规模实验,对比了 8 个模型4 到 256 个智能体 的各种组合,结论很反直觉:别给智能体预设死板的角色,让它们自己“卷”出组织结构,效果反而更好。

最让我意外的是那个叫“内生性悖论”的发现。咱们通常觉得要么强管控(中心化),要么完全放羊(去中心化),但这篇论文指出,一种叫 Sequential(顺序) 的混合协议才是最强王者。它只规定谁先说话、谁后说话(固定顺序),但让智能体自己决定这轮聊不聊、扮演什么角色。数据显示,这种方案比强管控好 14%,比完全放羊那种乱糟糟的协议更是高出 44%(Cohen’s d = 1.86,这个效应量非常夸张)。这说明啥?“秩序”和“自由”缺一不可,但秩序只需要管流程,别管内容。

技术细节上,这种自组织系统有个很酷的现象叫“自愿弃权”。也就是智能体聊着聊着,如果觉得这活儿我不行或者没必要插嘴,它会自己选择闭嘴。这比硬性分配角色要灵活得多。而且这玩意儿居然能扩展到 256 个智能体,成本还是次线性增长(Sub-linear cost,p=0.61),说明规模越大,这种松散协作的优势越明显。

当然,这事儿有个大前提:模型得够强。论文里提到了一个能力阈值,如果模型太弱(比如低于某个智商线),你让它自组织它就崩给你看,这时候还是得靠死板的结构管着才行。另外,开源模型这次表现挺争气,DeepSeek v3.2 和 GLM-5 在达到闭源模型 95% 的质量前提下,成本只有人家的 1/24。这对于想在公司内部落地多智能体架构的人来说,是个必须参考的数据。

07 / RELEASES2026.04.05

OpenAI获122亿美元融资扩大全球AI布局

OpenAI 这周搞了个大新闻,融资 122亿美元,投后估值直接干到了 8520亿美元。这数字看着眼晕,但比估值更吓人的是他们现在的造血能力。

咱们先看几个实打实的数据。他们现在的月营收已经到了 20亿美元,注意是月,不是年。这增长速度确实离谱,原文里说他们现在的收入增速是谷歌和 Meta 这种互联网巨头的 4倍。用户方面,ChatGPT 的周活有 9亿,付费用户超过 5000万。这基本就是全球互联网的底座了,流量是第二大 AI 应用的 6倍

我觉得这事儿最有意思的点在于“算力即护城河”这个逻辑的验证。OpenAI 现在的思路很清晰:用钱买卡,用卡训更强的模型(比如刚发的 GPT‑5.4),模型越强单位成本就越低,成本越低就能做更复杂的业务。这形成了一个正向飞轮。你看他们的 API 每分钟处理 150亿 tokens,Codex 编程工具的周活 200万,而且还在以 70% 的月环比增长。这种规模下,算力确实变成了结构性优势,别人想追很难。

另外,企业业务现在占了他们收入的 40%,预计到 2026 年底能和消费端平分秋色。这说明大家不再只是抱着 ChatGPT 聊天,而是真把它集成到工作流里了。虽然 8520亿 估值看着泡沫不小,但考虑到这现金流和增长速度,资本抢着送钱也就不奇怪了。

08 / NEWS2026.04.05

AI数据中心泡沫或达9万亿美元

金融时报(FT)最近发了个挺吓人的预测,说现在这波 AI 数据中心的建设热潮,搞不好会制造出高达 9万亿美元 的资产泡沫。

咱们现在看各大厂都在疯狂抢卡、建机房,好像这是稳赚不赔的买卖。但 FT 算了一笔账,觉得这事儿有点不对劲。他们把英伟达、微软这些巨头现在的市值和未来预期的资本支出加在一起,得出的潜在风险规模就是这个数。9万亿美元 是什么概念?这基本上相当于好几个全球主要经济体的 GDP 总和了。

我觉得这文章里有个逻辑挺值得琢磨。现在的假设是 AI 的需求会无限增长下去,所以大家才敢这么砸钱。但文章里提到,如果 AI 的变现速度跟不上硬件折旧的速度,或者模型训练的边际收益递减来得比想象中快,那这些投入巨资建成的数据中心,可能很快就会变成“搁浅资产”。说白了,就是还没回本,技术就过时了,或者电费都付不起。

说实话,虽然 9万亿美元 这个数字看着像是为了博眼球而算出来的极端值,但它指出的风险是真实的。现在的 AI 基建投资确实有点像当年的光纤泡沫——大家都觉得未来带宽需求无限大,结果铺了太多光缆,最后好多年都没用完。这次会不会重演,就看接下来一两年,这些昂贵的 GPU 到底能不能生出足够多的金蛋了。

chat_bubbleAny thoughts on today's content?
Weekly Deep Reads 2026.03.30 — 2026.04.05 | AI Daily Pulse