---
issue_number: W20260405
title: "Gemma 4超越Gemma 3，ParetoBandit省530倍成本"
url: https://ai.daily.yangsir.net/weekly?date=2026-04-05T00:00:00.000Z
week_start: 2026-03-30T00:00:00.000Z
week_end: 2026-04-05T00:00:00.000Z
publish_date: 2026-04-05T00:00:00.000Z
---

# Gemma 4超越Gemma 3，ParetoBandit省530倍成本

> 这周AI圈挺热闹：Gemma 4性能全面碾压Gemma 3，小模型效率创新高；ParetoBandit动态路由策略帮企业省下530倍成本。还有AI安全漏洞不用重训就能修，自组织代理效率超传统架构，OpenAI融资122亿扩军，不过9万亿数据中心泡沫也得警惕。

## 本周精选（8 条）

### 1. Gemma 4性能全面超越Gemma 3

**推荐理由**：小模型性能与效率双重突破，边缘部署新标杆

**来源**：Latent Space
https://www.latent.space/p/ainews-gemma-4-the-best-small-multimodal

**分类**：release

Google 这周把 Gemma 4 放出来了，这事儿挺重要的，毕竟现在美国那边的开源大模型有点青黄不接，DeepMind 能保持这个更新节奏确实不容易。

这次最让我意外的是那个 **31B 的密集模型**。你看这个数据，它居然跟 Kimi K2.5（那个 740B 总参数、激活 40B 的大家伙）还有 GLM-5 打了个平手，成了全球顶级的开源模型之一。用 **31B** 的参数量去硬刚人家几百亿甚至上万亿参数的模型，这效率提升太夸张了，说明他们在架构和训练数据上确实下了功夫。

而且这次 Google 终于想通了，协议直接换成了 **Apache 2.0**，这就意味着商业使用彻底没门槛了。技术细节上也挺有意思，比如那个 **26B 的 MoE 版本（A4B）**，它不是像 DeepSeek 那样把 MLP 全换成专家，而是把 MoE 块当成独立层插在普通 MLP 层中间，这种“混合”思路挺巧。另外，它原生就支持 **视频、图像和音频**，还能处理 **256K 的长上下文**，这对做 Agent 或者本地部署的人来说是刚需。

生态支持也快得离谱，**llama.cpp** 和 **vLLM** 都是 Day-0 支持。有人拿 M2 Ultra 跑那个 26B 的量化版，居然跑到了 **300 tokens/s**，这速度看视频都够了。虽然我也看到有人吐槽说这可能是用了投机解码，但不管怎么说，能在本地跑出这种性能，确实值得玩一玩。

---

### 2. 大模型安全机制可被重新激活，无需重新训练

**推荐理由**：无需重训即可修复安全漏洞，工业级模型合规新解

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2604.00012

**分类**：research

这篇论文讲了个挺有意思的现象：像 DeepSeek-R1 这种大推理模型（LRM），为了刷数学和代码题去搞强化学习，结果把原本的安全护栏给“挤”没了。但这帮人发现，**安全机制其实没丢，只是被推理能力给“压制”住了**。

这事儿细想挺合理。模型在训练时，为了最大化 CoT（思维链）的奖励，把跟推理相关的神经元激活得特别厉害，这就导致原本负责拒绝回答有害问题的信号被覆盖了。论文里有个实验挺直观，他们通过消融实验把跟推理相关的特征给削弱，结果模型的安全行为居然恢复了。这直接证明了**安全机制并没有被擦除，而是被掩盖了**。

基于这个发现，他们搞了个叫 SafeReAct 的方案。思路很巧，不用重新训练整个模型，而是**只在少数几层上加 LoRA 适配器**，把特征空间“掰”回来一点。他们在四个 SOTA 级别的 LRM 上测了，结果显示在**不损害推理性能的前提下，显著提升了安全性**。

说实话，这比现在主流的搞个几万条数据（比如 SafeChain 那种 **50,000+** 样本）去重新对齐要划算多了。重新训不仅费资源，还容易把好不容易练出来的推理能力给降级。这种“**特征重对齐**”的思路，对于以后做垂直领域模型（比如医疗模型）挺有启发的，毕竟谁也不想为了加个安全补丁，把模型最核心的专业能力给弄废了。

---

### 3. ParetoBandit：动态调整LLM路由策略，节省530倍成本

**推荐理由**：530倍成本范围动态路由，大幅降低企业部署开销

**来源**：arXiv cs.LG (ML)
https://arxiv.org/abs/2604.00136

**分类**：research

这篇论文讲的是一个叫 **ParetoBandit** 的 LLM 路由系统，专门解决生产环境里多模型混用时的“非平稳”难题——也就是模型价格会变、质量会偷偷退化、还得随时加新模型，这事儿挺让人头疼的。

他们搞了个 **Budget-Paced Adaptive Routing**，思路挺巧。不像以前那样离线调个死板的惩罚参数，而是用了一个在线的**原始-对偶预算步调器**。这玩意儿就像个实时财务，盯着每一笔请求，在保证不超支的前提下动态调整。实测下来，在七个不同的预算档位里，平均每请求成本超支从来没超过 **0.4%**，这控制力确实强。

最让我觉得有意思的是它对“突发状况”的处理。比如最贵的那个模型突然降价一个数量级，系统能立马反应过来，把流量切过去，质量还能提升 **+0.071**。反过来，如果某个模型“静默退化”（变蠢了但 API 没报错），它也能检测到并自动把流量切走。而且加新模型时，它有个“热交换注册表”，新模型大概 **142 步**探索后就能被正常调度，不会一上来就因为乱跑把预算烧光。

性能方面也没拉胯。端到端路由延迟才 **9.8 ms**，光做决策只要 **22.5 μs**，跟动辄几秒的 LLM 推理比起来，这开销基本可以忽略不计。对于手里捏着好几个模型、成本又卡得死的朋友，这个方案值得看看。

---

### 4. 人脑终身记忆架构破解LLM遗忘症

**推荐理由**：破解长对话推理衰减，赋予AI持久记忆能力

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2603.29023

**分类**：research

这篇论文试图解决大模型最让人头疼的“健忘症”问题。作者没打算靠堆算力把上下文窗口拉长，而是直接抄了人脑神经科学的作业，提出了一套基于**互补学习系统理论**的架构。

现在的 LLM 把指令、历史记录和检索文档全塞进一个上下文窗口，这其实很蠢。原文引用的数据很扎心：**Du et al. (2025) 的研究表明，单纯增加上下文长度，哪怕检索是完美的，性能也会下降高达 85%**。而且这玩意儿烧钱，**处理 100 万 tokens 的成本在 0.30 美元到 5.00 美元之间**（Q1 2026 数据），显然不可持续。

这篇论文有意思的地方在于它引入了几个生物学概念：

首先是“情绪即压缩计算”。它认为记忆不仅有内容，还有效价。系统会预计算**“效价向量”**，这就像给记忆打上了情感标签。模型不需要重新处理整个上下文，只需要看这些标签就能快速定位，这模仿了人脑的**“系统 1”**（直觉）和**“系统 2”**（理性思考）的切换机制。

其次是**“信念层级”**。借鉴了认知行为疗法（CBT），把身份和记忆看作一个层级结构。这意味着模型不再是被动接收信息，而是通过**“丘脑网关”**来过滤和路由信息。

我觉得最巧的一个点是关于“专家”的定义。作者认为，随着系统不断把**“系统 2”**的复杂处理转化为**“系统 1”**的直觉反应，它就具备了**“专业知识”**。这导致了一个反直觉的结论：**随着经验积累，交互成本应该降低，而不是升高**。这跟现在越聊越慢、越贵的 RAG 方案完全是两个思路。

---

### 5. APEX-EM解决AI代理缺乏程序记忆问题

**推荐理由**：赋予AI持久程序记忆，任务效率提升62%

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2603.29093

**分类**：research

这周读了一篇 Amazon AGI 团队发的论文 APEX-EM，他们试图解决大模型 Agent 一个很尴尬的现状：**模型虽然聪明，但没记性**。每次遇到任务，哪怕跟之前做过的几乎一模一样，它还是得从头推导一遍，既费 Token 又容易出错。这篇论文提了个非参数化的在线学习框架，简单说就是给 Agent 外挂了一个“程序记忆脑”，让它能边干边学。

我觉得最有意思的是它的 **PRGII 工作流**（Plan-Retrieve-Generate-Iterate-Ingest）。它不是简单地把历史问答存下来做 RAG，而是把整个解题过程——包括中间怎么规划的、代码写错了怎么改的、最后验证结果如何——打包成一个结构化的“程序性-情节性”记录存进库里。下次遇到新任务，它能通过**语义搜索、结构签名匹配和计划图遍历**三种方式混合检索，甚至能把代码生成里的经验迁移到写 SQL 查询上，哪怕两者字面上完全不重合。

数据这块确实挺能打。在 **KGQAGen-10k**（结构化查询生成）测试里，用了这个记忆框架后准确率干到了 **89.6%**，而不用记忆的 baseline 只有 **41.3%**，这 **48.3 个百分点**的提升全靠在线学习积累，甚至超过了 **GPT-4o** 带 Oracle 检索的 **84.9%**。在 **BigCodeBench** 写代码任务里，它从 **53.9%** 涨到了 **83.3%**，比之前的 MemRL 方案（+11.0pp）高出不少。

不过消融实验里的发现也挺实在：**富反馈**（Rich Judge Feedback）在写代码时收益不明显，但在写查询时能带来 **+10.3pp** 的巨大提升。这说明 Agent 的“记忆”机制也得看场景，并不是越复杂越好。这种不改动模型权重、纯粹靠外部记忆迭代来提升性能的思路，对于想把 Agent 落地到生产环境的人来说，确实比动不动就微调模型要实用得多。

---

### 6. 自组织AI代理超越层级化结构

**推荐理由**：2.5万任务验证，自组织架构效率优于层级管理

**来源**：arXiv cs.AI
https://arxiv.org/abs/2603.28990

**分类**：research

这篇论文挺有意思，直接挑战了现在多智能体系统里动不动就搞“项目经理+程序员+测试员”这种预设角色的做法。作者搞了个 **25,000 次任务** 的超大规模实验，对比了 **8 个模型** 和 **4 到 256 个智能体** 的各种组合，结论很反直觉：**别给智能体预设死板的角色，让它们自己“卷”出组织结构，效果反而更好。**

最让我意外的是那个叫“**内生性悖论**”的发现。咱们通常觉得要么强管控（中心化），要么完全放羊（去中心化），但这篇论文指出，一种叫 **Sequential（顺序）** 的混合协议才是最强王者。它只规定谁先说话、谁后说话（固定顺序），但让智能体自己决定这轮聊不聊、扮演什么角色。数据显示，这种方案比强管控好 **14%**，比完全放羊那种乱糟糟的协议更是高出 **44%**（Cohen’s d = 1.86，这个效应量非常夸张）。这说明啥？**“秩序”和“自由”缺一不可，但秩序只需要管流程，别管内容。**

技术细节上，这种自组织系统有个很酷的现象叫“**自愿弃权**”。也就是智能体聊着聊着，如果觉得这活儿我不行或者没必要插嘴，它会自己选择闭嘴。这比硬性分配角色要灵活得多。而且这玩意儿居然能扩展到 **256 个智能体**，成本还是**次线性增长**（Sub-linear cost，p=0.61），说明规模越大，这种松散协作的优势越明显。

当然，这事儿有个大前提：**模型得够强**。论文里提到了一个**能力阈值**，如果模型太弱（比如低于某个智商线），你让它自组织它就崩给你看，这时候还是得靠死板的结构管着才行。另外，开源模型这次表现挺争气，DeepSeek v3.2 和 GLM-5 在达到闭源模型 **95%** 的质量前提下，成本只有人家的 **1/24**。这对于想在公司内部落地多智能体架构的人来说，是个必须参考的数据。

---

### 7. OpenAI获122亿美元融资扩大全球AI布局

**推荐理由**：巨额融资巩固算力壁垒，AI军备竞赛升级

**来源**：OpenAI News
https://openai.com/index/accelerating-the-next-phase-ai

OpenAI 这周搞了个大新闻，融资 **122亿美元**，投后估值直接干到了 **8520亿美元**。这数字看着眼晕，但比估值更吓人的是他们现在的造血能力。

咱们先看几个实打实的数据。他们现在的月营收已经到了 **20亿美元**，注意是月，不是年。这增长速度确实离谱，原文里说他们现在的收入增速是谷歌和 Meta 这种互联网巨头的 **4倍**。用户方面，ChatGPT 的周活有 **9亿**，付费用户超过 **5000万**。这基本就是全球互联网的底座了，流量是第二大 AI 应用的 **6倍**。

我觉得这事儿最有意思的点在于“算力即护城河”这个逻辑的验证。OpenAI 现在的思路很清晰：用钱买卡，用卡训更强的模型（比如刚发的 GPT‑5.4），模型越强单位成本就越低，成本越低就能做更复杂的业务。这形成了一个正向飞轮。你看他们的 API 每分钟处理 **150亿 tokens**，Codex 编程工具的周活 **200万**，而且还在以 **70%** 的月环比增长。这种规模下，算力确实变成了结构性优势，别人想追很难。

另外，企业业务现在占了他们收入的 **40%**，预计到 2026 年底能和消费端平分秋色。这说明大家不再只是抱着 ChatGPT 聊天，而是真把它集成到工作流里了。虽然 **8520亿** 估值看着泡沫不小，但考虑到这现金流和增长速度，资本抢着送钱也就不奇怪了。

---

### 8. AI数据中心泡沫或达9万亿美元

**推荐理由**：预警9万亿基建泡沫，揭示AI投资回报风险

**来源**：HN AI 精选
https://www.ft.com/content/805f78f3-8da3-4fc0-b860-207a859ac723

**分类**：insight

金融时报（FT）最近发了个挺吓人的预测，说现在这波 AI 数据中心的建设热潮，搞不好会制造出高达 **9万亿美元** 的资产泡沫。

咱们现在看各大厂都在疯狂抢卡、建机房，好像这是稳赚不赔的买卖。但 FT 算了一笔账，觉得这事儿有点不对劲。他们把英伟达、微软这些巨头现在的市值和未来预期的资本支出加在一起，得出的潜在风险规模就是这个数。**9万亿美元** 是什么概念？这基本上相当于好几个全球主要经济体的 GDP 总和了。

我觉得这文章里有个逻辑挺值得琢磨。现在的假设是 AI 的需求会无限增长下去，所以大家才敢这么砸钱。但文章里提到，如果 AI 的变现速度跟不上硬件折旧的速度，或者模型训练的边际收益递减来得比想象中快，那这些投入巨资建成的数据中心，可能很快就会变成“**搁浅资产**”。说白了，就是还没回本，技术就过时了，或者电费都付不起。

说实话，虽然 **9万亿美元** 这个数字看着像是为了博眼球而算出来的极端值，但它指出的风险是真实的。现在的 AI 基建投资确实有点像当年的光纤泡沫——大家都觉得未来带宽需求无限大，结果铺了太多光缆，最后好多年都没用完。这次会不会重演，就看接下来一两年，这些昂贵的 GPU 到底能不能生出足够多的金蛋了。

---

**周报详情页**：https://ai.daily.yangsir.net/weekly?date=2026-04-05T00:00:00.000Z

---

*智语观潮 · 每周深读 — https://ai.daily.yangsir.net/llms.txt*