2026.05.17WEEKLY DEEP READS

Cerebras寻求以600亿美元估值进行IPO

8 items·2026.05.17

DAILY BRIEF

01Cerebras寻求以600亿美元估值进行IPO 02模型自适应工具必要性揭示大模型工具使用的知行鸿沟 03GraphBit用图谱编排解决Agent路由幻觉和无限循环问题 04ReVision：削减90%视觉冗余token，让计算机操作代理跑得更快更省 05SOMA用小模型接管多轮对话上下文，LLM推理成本大幅降低 06两个LLM绕过文本直接共享隐藏状态：Bicameral实现双向并行通信 07图视角揭示检索增强生成失败的四大核心原因 08AI基础设施引发强烈社会反弹，破坏与政治暴力风险加剧

01 / NEWS2026.05.17

Cerebras寻求以600亿美元估值进行IPO

AI芯片格局级变动，挑战英伟达霸权。

SOURCE

Latent Space

02 / RESEARCH2026.05.17

模型自适应工具必要性揭示大模型工具使用的知行鸿沟

这篇论文提出了一个挺反直觉的观点：“需不需要用工具”不该由人来定，而得看模型自己的本事。以前大家做评估，不管是人标还是 GPT-4 标，都默认这是个客观标准，但这篇论文觉得，对于 GPT-4 这种“学霸”来说不需要查资料的问题，放到 Llama-3 这种“小学生”身上，可能就必须得用工具了。所以他们定义了一个“模型自适应工具必要性”，核心逻辑很简单：如果你自己能答对，工具就是多余的；答不对，工具就是必须的。

基于这个定义，他们测试了四个模型，结果发现现在的 Agent 在“知行合一”上做得相当烂。数据显示，在算术任务中，模型的“实际行为”和“真实需求”之间的错配率高达 26.5%–54.0%；在事实问答（QA）里，这个错配率也有 30.8%–41.8%。这什么概念？就是模型经常在明明能算对的时候非要调计算器，或者明明脑子空空还非要硬撑着瞎编。

为了搞清楚这到底是“脑子”的问题还是“手”的问题，作者把工具调用拆成了两个阶段：认知和执行。他们通过探针去读模型的隐藏层，发现了一个挺有意思的现象：模型在内部其实“知道”自己该不该用工具，这个信号在隐藏层里是线性可分的。但是，当这个信号要转化成具体的“行动”时，方向却变得几乎正交。

这说明啥？说明大模型不是“傻”，而是“懒”或者“断路”。大部分错误并没有发生在认知阶段，而是发生在从认知到行动的转化上。这就像你明明心里知道前面是坑，脚还是不听使唤踩进去了。所以，以后想优化 Agent，光教它“什么时候该查”可能没用，得想办法把那个让它“抬手去查”的通路修好。

SOURCE

arXiv cs.AI

032026.05.17

GraphBit用图谱编排解决Agent路由幻觉和无限循环问题

这篇 GraphBit 的论文其实是在给现在的 Agent 热潮泼冷水，或者说是在“拨乱反正”。现在的多 Agent 框架，像 LangChain、AutoGen 这些，大多让 LLM 自己决定下一步该干啥，这叫 Prompted Orchestration。听起来很智能，但实际跑起来全是坑：模型会瞎编不存在的工具，或者几个 Agent 互相踢皮球进入死循环，同样的输入每次跑出来的结果还不一样。

GraphBit 的思路很直接：把控制权从 LLM 手里收回来。它把工作流定义成一个有向无环图（DAG），然后用一个 Rust 写的执行引擎来硬性规定路由和状态转换。Agent 在这里不再是决策者，而是被调用的“类型化函数”，只负责干活。这种确定性带来的收益在数据上体现得很明显：在 GAIA 基准测试里，它拿到了 67.6% 的最高准确率，而且实现了 零框架引发的幻觉。

我觉得它那个三层内存架构设计得挺巧。现在的 Agent 跑长了以后，上下文会无限膨胀，把早期的关键信息冲没。GraphBit 把内存分成了临时草稿、结构化状态和外部连接器，把上下文隔离开，防止“级联上下文膨胀”。这对长流程任务来说简直是救命稻草。

性能这块也挺有意思。因为不用每次路由都调 LLM，它的开销只有 11.9 毫秒。说实话，这种用确定性逻辑去约束概率性模型的思路，虽然看起来没那么“AI Native”，但在工程落地时往往比纯靠模型“悟”要靠谱得多。

SOURCE

arXiv cs.AI

042026.05.17

ReVision：削减90%视觉冗余token，让计算机操作代理跑得更快更省

这周看了一篇关于计算机操作代理（CUA）效率优化的论文，叫 ReVision。这东西主要解决的是视觉模型在操作电脑时“太费 Token”的问题。

大家都知道，现在的 Agent 比如 Claude 的 Computer Use 或者 Qwen 的 VL 模型，是靠看屏幕截图来干活的。但这有个大坑：每一步操作都要截一张图，每张图转成 Token 都是好几百上千个。连续操作几步，上下文窗口瞬间就爆了，而且大部分时候，相邻两张截图的内容重叠率极高，模型在反复处理一堆没变的像素。

ReVision 的思路挺直接，就是给视觉流做“去重”。他们搞了个Learned Patch Selector（学习型补丁选择器），专门用来对比连续截图里的 Patch，把那些没变的、冗余的视觉 Token 给切掉，只保留变化的部分，同时还得维持画面的空间结构，不让模型看懵。

数据上他们做得挺扎实。在 OSWorld、WebTailBench 和 AgentNetBench 这三个主流测试集上，用 Qwen2.5-VL-7B 跑 5 张历史截图的轨迹，ReVision 平均能削减掉 46% 的 Token。这不仅仅是省钱，效果反而还变好了，成功率比不删减的基线提升了 3%。

我觉得这个结论挺有意思，它其实反驳了之前的一个观点：以前大家觉得给 Agent 喂太多历史截图没用，是因为性能会饱和。但这篇论文证明，那不是历史信息没用，纯粹是因为 Token 太多把上下文挤爆了。把冗余去掉后，历史越长，Agent 干得越漂亮。

SOURCE

arXiv cs.CL (NLP)

052026.05.17

SOMA用小模型接管多轮对话上下文，LLM推理成本大幅降低

这篇论文讲了个挺实在的省钱招数：SOMA。它想解决的是多轮对话里那个让人头疼的“重复计算”问题——每次提问都得把前文重新喂一遍大模型，既费钱又慢。SOMA 的思路是，既然大模型贵，那就用小模型（SLM） 来接管长对话的后半程，只在开头用大模型“带个路”。

技术上它做得挺细致。它不是简单地把大模型蒸馏给小模型，而是利用对话前几轮的数据，去估算一个“局部响应流形”。简单说，就是通过学习 Soft Prompts（软提示），找出大模型和小模型在语义上分歧最大的方向，然后针对性地做微调。为了防止小模型在微调后“发疯”或者退化，他们还加了个“反退化控制”。最后把这些学到的经验固化成 LoRA 权重，这样小模型在推理时就不需要挂着长长的 Prompt 了，速度更快。

这招对谁有用？我觉得对于那些动辄几十轮的长对话场景（比如客服、编程助手）特别有价值。原文里有个数据挺能打：在 Qwen 系列模型上的测试显示，SOMA 能把推理成本降低 40% 到 50%，同时还能保持跟原版大模型 90% 以上的响应相似度。这说明它确实在保证质量不崩盘的前提下，把资源占用给砍下来了。不过我也在想，如果对话主题突然发生剧烈跳转，那个“局部流形”的假设可能就不太准了，这时候它的回滚机制能不能跟得上，还得打个问号。

SOURCE

arXiv cs.CL (NLP)

062026.05.17

两个LLM绕过文本直接共享隐藏状态：Bicameral实现双向并行通信

这篇论文提出的 Bicameral Model 挺有意思，它没走常规的“生成文本调用工具”的老路，而是让两个 LLM 直接在隐藏状态层面“脑电波同步”。

架构上，它搞了一个主模型负责生成，一个副模型负责用工具（计算器、Z3 求解器、Python）。中间加了个可训练的神经接口，大概只占总参数量的 1%。这俩模型是锁步运行的，每一步生成时，副模型都在后台并行干活，信息通过这个接口直接传，不需要把中间结果转成文本再读回来，省了那个序列化的过程。

效果确实挺猛。在算术任务里，俩 0.5B 的小模型联手，准确率直接从 36.2% 拉到了 96.5%。在逻辑推理上，配合 Z3 求解器，比没加这个机制的基线高了 1.7 倍。

最让我觉得巧妙的是那个抑制门。作者没规定它们俩之间该传啥格式，纯粹靠任务损失去训练。结果发现模型自己学会了一套“通信协议”：主模型往副模型传信号时，会重点把数字和操作符的信息压进去；反向传回来时，更多是校验和逻辑约束。这种“不靠文本对齐，靠需求对齐”的思路，比硬写 Prompt 要优雅得多。

SOURCE

arXiv cs.CL (NLP)

072026.05.17

图视角揭示检索增强生成失败的四大核心原因

这篇密歇根州立大学和 MIT 的论文，用“电路分析”的方法把 RAG（检索增强生成）给扒开看了。他们不满足于看输入输出，而是直接画了一张“归因图”，追踪模型内部 Transformer 层与层之间信息是怎么流动的，最后发现 RAG 失败还真不一定是检索没检到，而是模型内部“路走窄了”。

他们发现一个挺反直觉的现象：正确的预测往往依赖更深、更均匀分布的电路。也就是说，模型答对题时，它是在深层（比如 Higher Layers 8–31）持续处理检索到的证据，信息流是分散且结构化的。而那些失败的预测，虽然拿到了证据，但处理过程浅层且碎片化，甚至出现了一种叫“External Drift”（外部漂移）的情况，就是模型在中间层过早地抛弃了问题本身，被检索到的上下文带偏了节奏。

更有意思的是，他们发现模型在低层（0-7 层）主要是建立“问题锚点”，这时候应该以问题为主；但失败案例往往在这个阶段就过度依赖外部上下文，导致后面生成答案时“忘了问题是什么”。基于这个发现，作者搞了个图 Transformer 编码器来检测这种异常结构，还做了干预实验：强行加强早期对问题的理解，同时压制过早的上下文依赖。这一套组合拳下来，确实能把跑偏的推理路径给拉回来。这思路挺巧的，与其拼命优化检索库，不如盯着模型内部的注意力流向，看它是不是真的在“听话”。

SOURCE

arXiv cs.CL (NLP)

08 / NEWS2026.05.17

AI基础设施引发强烈社会反弹，破坏与政治暴力风险加剧

预警AI扩张的社会阻力，行业不可忽视的风险。

SOURCE

HN AI 精选

chat_bubbleAny thoughts on today's content?