Cerebras寻求以600亿美元估值进行IPO
模型自适应工具必要性揭示大模型工具使用的知行鸿沟
这篇论文提出了一个挺反直觉的观点:“需不需要用工具”不该由人来定,而得看模型自己的本事。以前大家做评估,不管是人标还是 GPT-4 标,都默认这是个客观标准,但这篇论文觉得,对于 GPT-4 这种“学霸”来说不需要查资料的问题,放到 Llama-3 这种“小学生”身上,可能就必须得用工具了。所以他们定义了一个“模型自适应工具必要性”,核心逻辑很简单:如果你自己能答对,工具就是多余的;答不对,工具就是必须的。
基于这个定义,他们测试了四个模型,结果发现现在的 Agent 在“知行合一”上做得相当烂。数据显示,在算术任务中,模型的“实际行为”和“真实需求”之间的错配率高达 26.5%–54.0%;在事实问答(QA)里,这个错配率也有 30.8%–41.8%。这什么概念?就是模型经常在明明能算对的时候非要调计算器,或者明明脑子空空还非要硬撑着瞎编。
为了搞清楚这到底是“脑子”的问题还是“手”的问题,作者把工具调用拆成了两个阶段:认知和执行。他们通过探针去读模型的隐藏层,发现了一个挺有意思的现象:模型在内部其实“知道”自己该不该用工具,这个信号在隐藏层里是线性可分的。但是,当这个信号要转化成具体的“行动”时,方向却变得几乎正交。
这说明啥?说明大模型不是“傻”,而是“懒”或者“断路”。大部分错误并没有发生在认知阶段,而是发生在从认知到行动的转化上。这就像你明明心里知道前面是坑,脚还是不听使唤踩进去了。所以,以后想优化 Agent,光教它“什么时候该查”可能没用,得想办法把那个让它“抬手去查”的通路修好。
GraphBit用图谱编排解决Agent路由幻觉和无限循环问题
这篇 GraphBit 的论文其实是在给现在的 Agent 热潮泼冷水,或者说是在“拨乱反正”。现在的多 Agent 框架,像 LangChain、AutoGen 这些,大多让 LLM 自己决定下一步该干啥,这叫 Prompted Orchestration。听起来很智能,但实际跑起来全是坑:模型会瞎编不存在的工具,或者几个 Agent 互相踢皮球进入死循环,同样的输入每次跑出来的结果还不一样。
GraphBit 的思路很直接:把控制权从 LLM 手里收回来。它把工作流定义成一个有向无环图(DAG),然后用一个 Rust 写的执行引擎来硬性规定路由和状态转换。Agent 在这里不再是决策者,而是被调用的“类型化函数”,只负责干活。这种确定性带来的收益在数据上体现得很明显:在 GAIA 基准测试里,它拿到了 67.6% 的最高准确率,而且实现了 零框架引发的幻觉。
我觉得它那个三层内存架构设计得挺巧。现在的 Agent 跑长了以后,上下文会无限膨胀,把早期的关键信息冲没。GraphBit 把内存分成了临时草稿、结构化状态和外部连接器,把上下文隔离开,防止“级联上下文膨胀”。这对长流程任务来说简直是救命稻草。
性能这块也挺有意思。因为不用每次路由都调 LLM,它的开销只有 11.9 毫秒。说实话,这种用确定性逻辑去约束概率性模型的思路,虽然看起来没那么“AI Native”,但在工程落地时往往比纯靠模型“悟”要靠谱得多。
ReVision:削减90%视觉冗余token,让计算机操作代理跑得更快更省
这周看了一篇关于计算机操作代理(CUA)效率优化的论文,叫 ReVision。这东西主要解决的是视觉模型在操作电脑时“太费 Token”的问题。
大家都知道,现在的 Agent 比如 Claude 的 Computer Use 或者 Qwen 的 VL 模型,是靠看屏幕截图来干活的。但这有个大坑:每一步操作都要截一张图,每张图转成 Token 都是好几百上千个。连续操作几步,上下文窗口瞬间就爆了,而且大部分时候,相邻两张截图的内容重叠率极高,模型在反复处理一堆没变的像素。
ReVision 的思路挺直接,就是给视觉流做“去重”。他们搞了个Learned Patch Selector(学习型补丁选择器),专门用来对比连续截图里的 Patch,把那些没变的、冗余的视觉 Token 给切掉,只保留变化的部分,同时还得维持画面的空间结构,不让模型看懵。
数据上他们做得挺扎实。在 OSWorld、WebTailBench 和 AgentNetBench 这三个主流测试集上,用 Qwen2.5-VL-7B 跑 5 张历史截图的轨迹,ReVision 平均能削减掉 46% 的 Token。这不仅仅是省钱,效果反而还变好了,成功率比不删减的基线提升了 3%。
我觉得这个结论挺有意思,它其实反驳了之前的一个观点:以前大家觉得给 Agent 喂太多历史截图没用,是因为性能会饱和。但这篇论文证明,那不是历史信息没用,纯粹是因为 Token 太多把上下文挤爆了。把冗余去掉后,历史越长,Agent 干得越漂亮。
SOMA用小模型接管多轮对话上下文,LLM推理成本大幅降低
这篇论文讲了个挺实在的省钱招数:SOMA。它想解决的是多轮对话里那个让人头疼的“重复计算”问题——每次提问都得把前文重新喂一遍大模型,既费钱又慢。SOMA 的思路是,既然大模型贵,那就用小模型(SLM) 来接管长对话的后半程,只在开头用大模型“带个路”。
技术上它做得挺细致。它不是简单地把大模型蒸馏给小模型,而是利用对话前几轮的数据,去估算一个“局部响应流形”。简单说,就是通过学习 Soft Prompts(软提示),找出大模型和小模型在语义上分歧最大的方向,然后针对性地做微调。为了防止小模型在微调后“发疯”或者退化,他们还加了个“反退化控制”。最后把这些学到的经验固化成 LoRA 权重,这样小模型在推理时就不需要挂着长长的 Prompt 了,速度更快。
这招对谁有用?我觉得对于那些动辄几十轮的长对话场景(比如客服、编程助手)特别有价值。原文里有个数据挺能打:在 Qwen 系列模型上的测试显示,SOMA 能把推理成本降低 40% 到 50%,同时还能保持跟原版大模型 90% 以上的响应相似度。这说明它确实在保证质量不崩盘的前提下,把资源占用给砍下来了。不过我也在想,如果对话主题突然发生剧烈跳转,那个“局部流形”的假设可能就不太准了,这时候它的回滚机制能不能跟得上,还得打个问号。
两个LLM绕过文本直接共享隐藏状态:Bicameral实现双向并行通信
这篇论文提出的 Bicameral Model 挺有意思,它没走常规的“生成文本调用工具”的老路,而是让两个 LLM 直接在隐藏状态层面“脑电波同步”。
架构上,它搞了一个主模型负责生成,一个副模型负责用工具(计算器、Z3 求解器、Python)。中间加了个可训练的神经接口,大概只占总参数量的 1%。这俩模型是锁步运行的,每一步生成时,副模型都在后台并行干活,信息通过这个接口直接传,不需要把中间结果转成文本再读回来,省了那个序列化的过程。
效果确实挺猛。在算术任务里,俩 0.5B 的小模型联手,准确率直接从 36.2% 拉到了 96.5%。在逻辑推理上,配合 Z3 求解器,比没加这个机制的基线高了 1.7 倍。
最让我觉得巧妙的是那个抑制门。作者没规定它们俩之间该传啥格式,纯粹靠任务损失去训练。结果发现模型自己学会了一套“通信协议”:主模型往副模型传信号时,会重点把数字和操作符的信息压进去;反向传回来时,更多是校验和逻辑约束。这种“不靠文本对齐,靠需求对齐”的思路,比硬写 Prompt 要优雅得多。
图视角揭示检索增强生成失败的四大核心原因
这篇密歇根州立大学和 MIT 的论文,用“电路分析”的方法把 RAG(检索增强生成)给扒开看了。他们不满足于看输入输出,而是直接画了一张“归因图”,追踪模型内部 Transformer 层与层之间信息是怎么流动的,最后发现 RAG 失败还真不一定是检索没检到,而是模型内部“路走窄了”。
他们发现一个挺反直觉的现象:正确的预测往往依赖更深、更均匀分布的电路。也就是说,模型答对题时,它是在深层(比如 Higher Layers 8–31)持续处理检索到的证据,信息流是分散且结构化的。而那些失败的预测,虽然拿到了证据,但处理过程浅层且碎片化,甚至出现了一种叫“External Drift”(外部漂移)的情况,就是模型在中间层过早地抛弃了问题本身,被检索到的上下文带偏了节奏。
更有意思的是,他们发现模型在低层(0-7 层)主要是建立“问题锚点”,这时候应该以问题为主;但失败案例往往在这个阶段就过度依赖外部上下文,导致后面生成答案时“忘了问题是什么”。基于这个发现,作者搞了个图 Transformer 编码器来检测这种异常结构,还做了干预实验:强行加强早期对问题的理解,同时压制过早的上下文依赖。这一套组合拳下来,确实能把跑偏的推理路径给拉回来。这思路挺巧的,与其拼命优化检索库,不如盯着模型内部的注意力流向,看它是不是真的在“听话”。