2026.05.17WEEKLY DEEP READS

Cerebras寻求以600亿美元估值进行IPO

8 items·2026.05.17
01 / NEWS2026.05.17

Cerebras寻求以600亿美元估值进行IPO

AI芯片格局级变动,挑战英伟达霸权。

02 / RESEARCH2026.05.17

模型自适应工具必要性揭示大模型工具使用的知行鸿沟

这篇论文提出了一个挺反直觉的观点:“需不需要用工具”不该由人来定,而得看模型自己的本事。以前大家做评估,不管是人标还是 GPT-4 标,都默认这是个客观标准,但这篇论文觉得,对于 GPT-4 这种“学霸”来说不需要查资料的问题,放到 Llama-3 这种“小学生”身上,可能就必须得用工具了。所以他们定义了一个“模型自适应工具必要性”,核心逻辑很简单:如果你自己能答对,工具就是多余的;答不对,工具就是必须的

基于这个定义,他们测试了四个模型,结果发现现在的 Agent 在“知行合一”上做得相当烂。数据显示,在算术任务中,模型的“实际行为”和“真实需求”之间的错配率高达 26.5%–54.0%;在事实问答(QA)里,这个错配率也有 30.8%–41.8%。这什么概念?就是模型经常在明明能算对的时候非要调计算器,或者明明脑子空空还非要硬撑着瞎编。

为了搞清楚这到底是“脑子”的问题还是“手”的问题,作者把工具调用拆成了两个阶段:认知执行。他们通过探针去读模型的隐藏层,发现了一个挺有意思的现象:模型在内部其实“知道”自己该不该用工具,这个信号在隐藏层里是线性可分的。但是,当这个信号要转化成具体的“行动”时,方向却变得几乎正交

这说明啥?说明大模型不是“傻”,而是“懒”或者“断路”。大部分错误并没有发生在认知阶段,而是发生在从认知到行动的转化上。这就像你明明心里知道前面是坑,脚还是不听使唤踩进去了。所以,以后想优化 Agent,光教它“什么时候该查”可能没用,得想办法把那个让它“抬手去查”的通路修好。

032026.05.17

GraphBit用图谱编排解决Agent路由幻觉和无限循环问题

这篇 GraphBit 的论文其实是在给现在的 Agent 热潮泼冷水,或者说是在“拨乱反正”。现在的多 Agent 框架,像 LangChain、AutoGen 这些,大多让 LLM 自己决定下一步该干啥,这叫 Prompted Orchestration。听起来很智能,但实际跑起来全是坑:模型会瞎编不存在的工具,或者几个 Agent 互相踢皮球进入死循环,同样的输入每次跑出来的结果还不一样。

GraphBit 的思路很直接:把控制权从 LLM 手里收回来。它把工作流定义成一个有向无环图(DAG),然后用一个 Rust 写的执行引擎来硬性规定路由和状态转换。Agent 在这里不再是决策者,而是被调用的“类型化函数”,只负责干活。这种确定性带来的收益在数据上体现得很明显:在 GAIA 基准测试里,它拿到了 67.6% 的最高准确率,而且实现了 零框架引发的幻觉

我觉得它那个三层内存架构设计得挺巧。现在的 Agent 跑长了以后,上下文会无限膨胀,把早期的关键信息冲没。GraphBit 把内存分成了临时草稿、结构化状态和外部连接器,把上下文隔离开,防止“级联上下文膨胀”。这对长流程任务来说简直是救命稻草。

性能这块也挺有意思。因为不用每次路由都调 LLM,它的开销只有 11.9 毫秒。说实话,这种用确定性逻辑去约束概率性模型的思路,虽然看起来没那么“AI Native”,但在工程落地时往往比纯靠模型“悟”要靠谱得多。

042026.05.17

ReVision:削减90%视觉冗余token,让计算机操作代理跑得更快更省

这周看了一篇关于计算机操作代理(CUA)效率优化的论文,叫 ReVision。这东西主要解决的是视觉模型在操作电脑时“太费 Token”的问题。

大家都知道,现在的 Agent 比如 Claude 的 Computer Use 或者 Qwen 的 VL 模型,是靠看屏幕截图来干活的。但这有个大坑:每一步操作都要截一张图,每张图转成 Token 都是好几百上千个。连续操作几步,上下文窗口瞬间就爆了,而且大部分时候,相邻两张截图的内容重叠率极高,模型在反复处理一堆没变的像素。

ReVision 的思路挺直接,就是给视觉流做“去重”。他们搞了个Learned Patch Selector(学习型补丁选择器),专门用来对比连续截图里的 Patch,把那些没变的、冗余的视觉 Token 给切掉,只保留变化的部分,同时还得维持画面的空间结构,不让模型看懵。

数据上他们做得挺扎实。在 OSWorld、WebTailBench 和 AgentNetBench 这三个主流测试集上,用 Qwen2.5-VL-7B 跑 5 张历史截图的轨迹,ReVision 平均能削减掉 46% 的 Token。这不仅仅是省钱,效果反而还变好了,成功率比不删减的基线提升了 3%

我觉得这个结论挺有意思,它其实反驳了之前的一个观点:以前大家觉得给 Agent 喂太多历史截图没用,是因为性能会饱和。但这篇论文证明,那不是历史信息没用,纯粹是因为 Token 太多把上下文挤爆了。把冗余去掉后,历史越长,Agent 干得越漂亮。

052026.05.17

SOMA用小模型接管多轮对话上下文,LLM推理成本大幅降低

这篇论文讲了个挺实在的省钱招数:SOMA。它想解决的是多轮对话里那个让人头疼的“重复计算”问题——每次提问都得把前文重新喂一遍大模型,既费钱又慢。SOMA 的思路是,既然大模型贵,那就用小模型(SLM) 来接管长对话的后半程,只在开头用大模型“带个路”。

技术上它做得挺细致。它不是简单地把大模型蒸馏给小模型,而是利用对话前几轮的数据,去估算一个“局部响应流形”。简单说,就是通过学习 Soft Prompts(软提示),找出大模型和小模型在语义上分歧最大的方向,然后针对性地做微调。为了防止小模型在微调后“发疯”或者退化,他们还加了个“反退化控制”。最后把这些学到的经验固化成 LoRA 权重,这样小模型在推理时就不需要挂着长长的 Prompt 了,速度更快。

这招对谁有用?我觉得对于那些动辄几十轮的长对话场景(比如客服、编程助手)特别有价值。原文里有个数据挺能打:在 Qwen 系列模型上的测试显示,SOMA 能把推理成本降低 40% 到 50%,同时还能保持跟原版大模型 90% 以上的响应相似度。这说明它确实在保证质量不崩盘的前提下,把资源占用给砍下来了。不过我也在想,如果对话主题突然发生剧烈跳转,那个“局部流形”的假设可能就不太准了,这时候它的回滚机制能不能跟得上,还得打个问号。

062026.05.17

两个LLM绕过文本直接共享隐藏状态:Bicameral实现双向并行通信

这篇论文提出的 Bicameral Model 挺有意思,它没走常规的“生成文本调用工具”的老路,而是让两个 LLM 直接在隐藏状态层面“脑电波同步”。

架构上,它搞了一个主模型负责生成,一个副模型负责用工具(计算器、Z3 求解器、Python)。中间加了个可训练的神经接口,大概只占总参数量的 1%。这俩模型是锁步运行的,每一步生成时,副模型都在后台并行干活,信息通过这个接口直接传,不需要把中间结果转成文本再读回来,省了那个序列化的过程。

效果确实挺猛。在算术任务里,俩 0.5B 的小模型联手,准确率直接从 36.2% 拉到了 96.5%。在逻辑推理上,配合 Z3 求解器,比没加这个机制的基线高了 1.7 倍

最让我觉得巧妙的是那个抑制门。作者没规定它们俩之间该传啥格式,纯粹靠任务损失去训练。结果发现模型自己学会了一套“通信协议”:主模型往副模型传信号时,会重点把数字和操作符的信息压进去;反向传回来时,更多是校验和逻辑约束。这种“不靠文本对齐,靠需求对齐”的思路,比硬写 Prompt 要优雅得多。

072026.05.17

图视角揭示检索增强生成失败的四大核心原因

这篇密歇根州立大学和 MIT 的论文,用“电路分析”的方法把 RAG(检索增强生成)给扒开看了。他们不满足于看输入输出,而是直接画了一张“归因图”,追踪模型内部 Transformer 层与层之间信息是怎么流动的,最后发现 RAG 失败还真不一定是检索没检到,而是模型内部“路走窄了”。

他们发现一个挺反直觉的现象:正确的预测往往依赖更深、更均匀分布的电路。也就是说,模型答对题时,它是在深层(比如 Higher Layers 8–31)持续处理检索到的证据,信息流是分散且结构化的。而那些失败的预测,虽然拿到了证据,但处理过程浅层且碎片化,甚至出现了一种叫“External Drift”(外部漂移)的情况,就是模型在中间层过早地抛弃了问题本身,被检索到的上下文带偏了节奏。

更有意思的是,他们发现模型在低层(0-7 层)主要是建立“问题锚点”,这时候应该以问题为主;但失败案例往往在这个阶段就过度依赖外部上下文,导致后面生成答案时“忘了问题是什么”。基于这个发现,作者搞了个图 Transformer 编码器来检测这种异常结构,还做了干预实验:强行加强早期对问题的理解,同时压制过早的上下文依赖。这一套组合拳下来,确实能把跑偏的推理路径给拉回来。这思路挺巧的,与其拼命优化检索库,不如盯着模型内部的注意力流向,看它是不是真的在“听话”。

08 / NEWS2026.05.17

AI基础设施引发强烈社会反弹,破坏与政治暴力风险加剧

预警AI扩张的社会阻力,行业不可忽视的风险。

chat_bubbleAny thoughts on today's content?
Weekly Deep Reads 2026.05.11 — 2026.05.17 | AI Daily Pulse