---
issue_number: W20260517
title: "Cerebras拟600亿IPO，GraphBit解决Agent幻觉"
url: https://ai.daily.yangsir.net/weekly?date=2026-05-17T00:00:00.000Z
week_start: 2026-05-11T00:00:00.000Z
week_end: 2026-05-17T00:00:00.000Z
publish_date: 2026-05-17T00:00:00.000Z
---

# Cerebras拟600亿IPO，GraphBit解决Agent幻觉

> 这周AI圈动静不小：Cerebras估值600亿冲击IPO，想挑战英伟达；GraphBit用图谱编排解决了Agent的幻觉和无限循环问题；还有工具降低视觉Agent成本90%，大小模型分工降成本，多模型直接共享状态等新鲜事。

## 本周精选（8 条）

### 1. Cerebras寻求以600亿美元估值进行IPO

**推荐理由**：AI芯片格局级变动，挑战英伟达霸权。

**来源**：Latent Space
https://www.latent.space/p/ainews-cerebras-60b-ipo-slowly-then

---

### 2. 模型自适应工具必要性揭示大模型工具使用的知行鸿沟

**推荐理由**：揭示Agent核心缺陷，重新定义工具使用评估。

**来源**：arXiv cs.AI
https://arxiv.org/abs/2605.14038

这篇论文提出了一个挺反直觉的观点：**“需不需要用工具”不该由人来定，而得看模型自己的本事**。以前大家做评估，不管是人标还是 GPT-4 标，都默认这是个客观标准，但这篇论文觉得，对于 GPT-4 这种“学霸”来说不需要查资料的问题，放到 Llama-3 这种“小学生”身上，可能就必须得用工具了。所以他们定义了一个**“模型自适应工具必要性”**，核心逻辑很简单：**如果你自己能答对，工具就是多余的；答不对，工具就是必须的**。

基于这个定义，他们测试了四个模型，结果发现现在的 Agent 在“知行合一”上做得相当烂。数据显示，在算术任务中，**模型的“实际行为”和“真实需求”之间的错配率高达 26.5%–54.0%**；在事实问答（QA）里，这个错配率也有 **30.8%–41.8%**。这什么概念？就是模型经常在明明能算对的时候非要调计算器，或者明明脑子空空还非要硬撑着瞎编。

为了搞清楚这到底是“脑子”的问题还是“手”的问题，作者把工具调用拆成了两个阶段：**认知**和**执行**。他们通过探针去读模型的隐藏层，发现了一个挺有意思的现象：**模型在内部其实“知道”自己该不该用工具，这个信号在隐藏层里是线性可分的**。但是，**当这个信号要转化成具体的“行动”时，方向却变得几乎正交**。

这说明啥？说明大模型不是“傻”，而是“懒”或者“断路”。**大部分错误并没有发生在认知阶段，而是发生在从认知到行动的转化上**。这就像你明明心里知道前面是坑，脚还是不听使唤踩进去了。所以，以后想优化 Agent，光教它“什么时候该查”可能没用，得想办法把那个让它“抬手去查”的通路修好。

---

### 3. GraphBit用图谱编排解决Agent路由幻觉和无限循环问题

**推荐理由**：解决Agent不可靠痛点，将控制权从模型收回。

**来源**：arXiv cs.AI
https://arxiv.org/abs/2605.13848

这篇 GraphBit 的论文其实是在给现在的 Agent 热潮泼冷水，或者说是在“拨乱反正”。现在的多 Agent 框架，像 LangChain、AutoGen 这些，大多让 LLM 自己决定下一步该干啥，这叫 Prompted Orchestration。听起来很智能，但实际跑起来全是坑：模型会瞎编不存在的工具，或者几个 Agent 互相踢皮球进入死循环，同样的输入每次跑出来的结果还不一样。

GraphBit 的思路很直接：把控制权从 LLM 手里收回来。它把工作流定义成一个**有向无环图（DAG）**，然后用一个 **Rust 写的执行引擎**来硬性规定路由和状态转换。Agent 在这里不再是决策者，而是被调用的“类型化函数”，只负责干活。这种确定性带来的收益在数据上体现得很明显：在 GAIA 基准测试里，它拿到了 **67.6% 的最高准确率**，而且实现了 **零框架引发的幻觉**。

我觉得它那个三层内存架构设计得挺巧。现在的 Agent 跑长了以后，上下文会无限膨胀，把早期的关键信息冲没。GraphBit 把内存分成了临时草稿、结构化状态和外部连接器，把上下文隔离开，防止“级联上下文膨胀”。这对长流程任务来说简直是救命稻草。

性能这块也挺有意思。因为不用每次路由都调 LLM，它的开销只有 **11.9 毫秒**。说实话，这种用确定性逻辑去约束概率性模型的思路，虽然看起来没那么“AI Native”，但在工程落地时往往比纯靠模型“悟”要靠谱得多。

---

### 4. ReVision：削减90%视觉冗余token，让计算机操作代理跑得更快更省

**推荐理由**：大幅降低视觉Agent成本，工程价值巨大。

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2605.11212

**分类**：research

这周看了一篇关于计算机操作代理（CUA）效率优化的论文，叫 ReVision。这东西主要解决的是视觉模型在操作电脑时“太费 Token”的问题。

大家都知道，现在的 Agent 比如 Claude 的 Computer Use 或者 Qwen 的 VL 模型，是靠看屏幕截图来干活的。但这有个大坑：每一步操作都要截一张图，每张图转成 Token 都是好几百上千个。连续操作几步，上下文窗口瞬间就爆了，而且大部分时候，相邻两张截图的内容重叠率极高，模型在反复处理一堆没变的像素。

ReVision 的思路挺直接，就是给视觉流做“去重”。他们搞了个**Learned Patch Selector（学习型补丁选择器）**，专门用来对比连续截图里的 Patch，把那些没变的、冗余的视觉 Token 给切掉，只保留变化的部分，同时还得维持画面的空间结构，不让模型看懵。

数据上他们做得挺扎实。在 OSWorld、WebTailBench 和 AgentNetBench 这三个主流测试集上，用 Qwen2.5-VL-7B 跑 5 张历史截图的轨迹，ReVision 平均能**削减掉 46% 的 Token**。这不仅仅是省钱，效果反而还变好了，成功率比不删减的基线**提升了 3%**。

我觉得这个结论挺有意思，它其实反驳了之前的一个观点：以前大家觉得给 Agent 喂太多历史截图没用，是因为性能会饱和。但这篇论文证明，那不是历史信息没用，纯粹是因为 Token 太多把上下文挤爆了。把冗余去掉后，历史越长，Agent 干得越漂亮。

---

### 5. SOMA用小模型接管多轮对话上下文，LLM推理成本大幅降低

**推荐理由**：大小模型分工新范式，显著降低长对话成本。

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2605.11317

**分类**：research

这篇论文讲了个挺实在的省钱招数：**SOMA**。它想解决的是多轮对话里那个让人头疼的“重复计算”问题——每次提问都得把前文重新喂一遍大模型，既费钱又慢。SOMA 的思路是，既然大模型贵，那就用**小模型（SLM）** 来接管长对话的后半程，只在开头用大模型“带个路”。

技术上它做得挺细致。它不是简单地把大模型蒸馏给小模型，而是利用对话前几轮的数据，去估算一个**“局部响应流形”**。简单说，就是通过学习 **Soft Prompts（软提示）**，找出大模型和小模型在语义上**分歧最大**的方向，然后针对性地做微调。为了防止小模型在微调后“发疯”或者退化，他们还加了个**“反退化控制”**。最后把这些学到的经验固化成 **LoRA** 权重，这样小模型在推理时就不需要挂着长长的 Prompt 了，速度更快。

这招对谁有用？我觉得对于那些动辄几十轮的**长对话场景**（比如客服、编程助手）特别有价值。原文里有个数据挺能打：在 **Qwen** 系列模型上的测试显示，SOMA 能把推理成本降低 **40% 到 50%**，同时还能保持跟原版大模型 **90% 以上的响应相似度**。这说明它确实在保证质量不崩盘的前提下，把资源占用给砍下来了。不过我也在想，如果对话主题突然发生剧烈跳转，那个“局部流形”的假设可能就不太准了，这时候它的**回滚机制**能不能跟得上，还得打个问号。

---

### 6. 两个LLM绕过文本直接共享隐藏状态：Bicameral实现双向并行通信

**推荐理由**：打破文本交互瓶颈，多模型协作架构新思路。

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2605.11167

**分类**：research

这篇论文提出的 **Bicameral Model** 挺有意思，它没走常规的“生成文本调用工具”的老路，而是让两个 LLM 直接在**隐藏状态**层面“脑电波同步”。

架构上，它搞了一个主模型负责生成，一个副模型负责用工具（计算器、Z3 求解器、Python）。中间加了个可训练的**神经接口**，大概只占**总参数量的 1%**。这俩模型是**锁步**运行的，每一步生成时，副模型都在后台并行干活，信息通过这个接口直接传，不需要把中间结果转成文本再读回来，省了那个序列化的过程。

效果确实挺猛。在算术任务里，俩 **0.5B** 的小模型联手，准确率直接从 **36.2%** 拉到了 **96.5%**。在逻辑推理上，配合 Z3 求解器，比没加这个机制的基线高了 **1.7 倍**。

最让我觉得巧妙的是那个**抑制门**。作者没规定它们俩之间该传啥格式，纯粹靠任务损失去训练。结果发现模型自己学会了一套“通信协议”：主模型往副模型传信号时，会重点把数字和操作符的信息压进去；反向传回来时，更多是校验和逻辑约束。这种“不靠文本对齐，靠需求对齐”的思路，比硬写 Prompt 要优雅得多。

---

### 7. 图视角揭示检索增强生成失败的四大核心原因

**推荐理由**：深度剖析RAG失效根因，指导企业级部署。

**来源**：arXiv cs.CL (NLP)
https://arxiv.org/abs/2605.14192

**分类**：research

这篇密歇根州立大学和 MIT 的论文，用“电路分析”的方法把 RAG（检索增强生成）给扒开看了。他们不满足于看输入输出，而是直接画了一张“归因图”，追踪模型内部 Transformer 层与层之间信息是怎么流动的，最后发现 RAG 失败还真不一定是检索没检到，而是模型内部“路走窄了”。

他们发现一个挺反直觉的现象：**正确的预测往往依赖更深、更均匀分布的电路**。也就是说，模型答对题时，它是在深层（比如 **Higher Layers 8–31**）持续处理检索到的证据，信息流是分散且结构化的。而那些失败的预测，虽然拿到了证据，但处理过程**浅层且碎片化**，甚至出现了一种叫“External Drift”（外部漂移）的情况，就是模型在中间层**过早地抛弃了问题本身**，被检索到的上下文带偏了节奏。

更有意思的是，他们发现模型在低层（**0-7 层**）主要是建立“问题锚点”，这时候应该以问题为主；但失败案例往往在这个阶段就过度依赖外部上下文，导致后面生成答案时“忘了问题是什么”。基于这个发现，作者搞了个图 Transformer 编码器来检测这种异常结构，还做了干预实验：**强行加强早期对问题的理解，同时压制过早的上下文依赖**。这一套组合拳下来，确实能把跑偏的推理路径给拉回来。这思路挺巧的，与其拼命优化检索库，不如盯着模型内部的注意力流向，看它是不是真的在“听话”。

---

### 8. AI基础设施引发强烈社会反弹，破坏与政治暴力风险加剧

**推荐理由**：预警AI扩张的社会阻力，行业不可忽视的风险。

**来源**：HN AI 精选
https://www.theatlantic.com/technology/2026/05/ai-backlash-data-centers-political-violence/687151/

**分类**：insight

---

**周报详情页**：https://ai.daily.yangsir.net/weekly?date=2026-05-17T00:00:00.000Z

---

*智语观潮 · 每周深读 — https://ai.daily.yangsir.net/llms.txt*