2026.03.17WEEKLY DEEP READS

LeCun创立AMI Labs获10亿美元种子轮融资

10 ·2026.03.17
01 / 资讯2026.03.17

LeCun创立AMI Labs获10亿美元种子轮融资

这是一场典型的学术信仰变现,也是对当下概率预测霸权的正面宣战。

LeCun 拿着 $1.03B 的种子轮资金——这数字甚至超过了绝大多数上市公司的现金储备——直接把世界模型的赌注推上了牌桌。这笔钱显然不是为了去租更多的 H100 跑预训练,而是为了彻底抛弃 LLM 的下一个 Token 预测范式。与其在概率生成的死胡同里死磕,LeCun 选择回归他坚持的 JEPA 架构,试图让机器学会像人一样构建物理世界的抽象表征

$3.5B 的投前估值说明资本市场对这种技术分歧买账了。过去两年,OpenAI 和 Google 把 AI 变成了更会写诗的文科生,LeCun 现在要造一个懂物理规律的理科生。这才是通往 AGI 的硬骨头:只有当 AI 能理解因果关系而非仅仅是相关性时,自动驾驶和机器人才能真正摆脱精心编排的演示,进入 messy的现实世界。

这笔融资最大的信号在于时间尺度的碾压。OpenAI 和 Anthropic 在忙着通过产品变现来摊薄训练成本,而 AMI Labs 一上来就拿到了可以不计成本烧十年的“科学经费”。这种不对称的资源优势,让技术路线之争从单纯的工程竞赛,变成了不同流派之间甚至不同维度的生存游戏。物理世界不会撒谎,LeCun 这次要把赌注全压在真实上。

02 / 研究2026.03.17

AI网络攻击测试:模型完成32步企业攻击

这不再是CTF夺旗赛里的单点突破,而是一份关于AI渗透测试从理论验证迈向实战自动化的确凿证据,重点在于模型在长链条任务中的连贯执行能力。

数据揭示的趋势相当残酷。在名为“The Last Ones”的32步企业网络攻击模拟中,模型能力与算力投入呈现出清晰的Log-线性(Log-linear)增长关系。算力从10M tokens提升至100M tokens,攻击步数直接增长了59%,且完全没有出现性能天花板。这说明在当前阶段,暴力求解算力依然能极其有效地换取攻击深度。

代际差距更是令人咋舌。GPT-4o(2024年8月)在10M tokens预算下平均只能完成1.7步,到了2026年2月的Opus 4.6,这一数字飙升至9.8步。单次最佳运行甚至拿下了22步,相当于完成了人类专家14小时工作量中接近一半的进程。这种进化速度直接击穿了传统防御依赖的“时间差”壁垒。现在的AI还做不到全自动化通关(ICS场景表现依然拉胯,仅完成1.4步),但面对“降本增效”这一核心诉求,企业完全可以利用AI批量完成前期枯燥的信息搜集和权限提升,只需人类专家在最后关头“临门一脚”。攻击者的ROI(投资回报率)正在被指数级拉高。

032026.03.17

GONE方法实现大模型结构化知识遗忘

精准定点爆破,而非地毯式清洗

GONE 框架与其说是模型的“忘却术”,不如说是给大模型知识做的“微创手术”。它针对的是 LLM 参数空间中高度纠缠的结构化知识,不再满足于模糊的概率抑制,而是利用图结构,在保持周边语义关联完整的前提下,把指定事实从高维向量空间里精确剥离

数据维度的升维打击

现有的 TOFU 或 RWKU 这类基准,大多还在和“句子”较劲,这种扁平化的处理方式在复杂知识面前捉襟见肘。如果一个模型被要求遗忘“爱因斯坦获得诺贝尔奖”这一事实,仅靠句子匹配无法防止它通过“相对论创始人获得过什么奖”这样的多跳推理把答案泄露出来。GONE 引入知识图谱(KG)作为底层逻辑,将检测对象拆解为直接事实移除、推理泄露和灾难性遗忘三个维度。它构建了复杂的拓扑正交性测试,迫使“忘集”与“保留集”在特征空间中彻底解耦。

NEDS:构建语义隔离墙

核心方法 NEDS 的亮点在于它不搞全局参数扰动,而是寻找“锚点”。模型会挖掘待遗忘事实的关联邻居,通过优化目标强制拉大待遗忘知识与邻居节点的决策边界。实验数据很直观:在 LLaMA-3-8B 和 Mistral-7B 上,NEDS 达到了 1.000 的遗忘有效性,同时将模型通用能力的保留维持在 0.839。它证明了通过约束优化,可以在不破坏模型其他认知能力的前提下,实现对特定逻辑链条的物理切断。这对处理版权和隐私问题极具参考价值,因为只有解决了推理路径的泄露,遗忘才算真正达标。

042026.03.17

图tokenization:Transformer与图桥梁

这其实就是把图结构数据强行“翻译”成标准 Transformer 能读懂的离散符号序列,彻底绕过了为图数据专门设计复杂神经网络架构(GNN)的老路。核心在于它不再把节点打散成连续向量,而是用BPE(Byte Pair Encoding)把图里的局部子结构压缩成了一个个离散 Token。

这种方法在技术路线上非常“刁钻”。它先用Local Structural Pattern Statistics 统计子结构频率,再通过 Reversible Graph Serialization 把图拉成序列。这导致 Transformer 拿到的不再是杂乱的节点,而是高频子结构合并后的“词表”。这种离散化处理让标准 BERT 在14 个基准数据集上直接击败了专用 Graph Transformer 和 GNN。

背后的战略意图很明显:试图将大语言模型的生态红利直接“套现”到图领域。以前我们做图学习,得重写注意力机制、重写消息传递,现在只要 tokenizer 做得好,直接能用现成的 LLM 架构和权重。这种“数据侧适配”而非“模型侧魔改”的思路,极大概率会终结 Graph Transformer 的架构军备竞赛。既然能把图 tokenization 做好,谁还愿意去重新训练一个动不动就 OOM 的专用图模型?这不仅是性能提升,更是开发范式向标准序列模型的彻底投降与统一。

052026.03.17

马尔可夫生成链:LLM文本迭代处理研究

这篇研究最核心的价值在于给“多智能体循环”现象套上了一个精确的数学紧箍咒。以前大家觉得 LLM 互相生成文本只是“可能会退化”,这篇论文直接把它定义为马尔可夫生成链——一个没有任何外部记忆介入、仅依赖上一次输出作为下一次输入的随机过程。这把复杂的 LLM 交互博弈,简化为了清晰的状态空间转移矩阵问题。

这种数学视角的切换,直接揭露了当下多智能体架构的一个致命隐患:收敛性陷阱。实验数据摆在那儿:一旦采用Greedy Decoding(贪婪解码),链条迅速坍缩进固定点短循环。这意味着那些追求“自我修正”或“多轮辩论”的智能体系统,大概率不是在优化答案,而是在极短的步数后陷入死循环,句子级多样性几乎归零。

更有意思的是采样带来的反直觉结果。引入随机性确实能延长瞬态过程,让系统在一定步数内产出更多样化的句子,但这是一种“虚假的繁荣”。从信息论角度看,随着迭代轮次增加,哪怕最初意图是“保持原意”,相对熵也在持续收缩。对于整个行业而言,这敲响了警钟:未来的竞争壁垒不再是谁的模型参数量大,而是谁能控制好这些迭代式推理过程中的KL 散度收缩速度,防止生成的文本在多轮交互中变成毫无营养的“模型汤”。

062026.03.17

新方法提升大模型激活控制精度与稳定性

破解大模型“脑电波”的乱码:GER-steer 的几何降维打击

Activation Steering(激活干预)一直是个听起来性感、用起来粗糙的活儿。大家想通过在模型神经元里加个“向量”来控制模型行为(比如让它拒绝回答危险问题),但传统的 Contrastive Activation Addition (CAA) 方法太依赖简单的加减法。这就像在吵闹的菜市场里试图通过听声音来分辨特定对话,信号全是噪点。这篇提出的 Global Evolutionary Refined Steering (GER-steer),本质上是用全局进化的几何稳定性,把那些混杂在向量里的“情绪”和“噪声”剔除,只保留最纯粹的控制指令。

现有技术最大的痛点是语义抖动。原本认为“正面样本”减“负面样本”得到的向量就是意图,但论文指出这其实混入了大量的虚假相关性,比如句式结构或特定词频,导致换一个场景,控制向量就失效。这篇论文的技术突破在于引入了“跨层一致性”谱共识发现。它不再盯着某一层的单一差异看,而是在整个网络高层空间寻找进化的稳态方向。简单说,如果某个方向在几十层网络里都朝一个地方跑,那它才是真正的“语义”,其他跟它垂直的方向大概率是噪声。

数据表现上,这种方法展现了极强的鲁棒性。在 AdvBench 等安全对齐测试中,传统方法往往需要针对每一层单独调参,效果还不稳定;GER-steer 直接实现了通用的跨层控制。这种不依赖训练、仅靠几何投影和特征值分解的思路,证明了我们在理解模型内部表征几何结构上,又往前迈了一大步。对于还在用暴力对齐或微调来解决幻觉与安全的团队来说,这种高精度的“手术刀”式干预,显然是更解渴的路径。

072026.03.17

研究提出混合自进化结构记忆提升GUI智能体性能

把 GUI 智能体比作一个只会“七秒记忆”的操作员并不为过,即便视觉感知再强,一旦任务链条拉长,缺乏全局规划的 Agent 就会在反复的试错中耗尽 Token。这篇来自 UCSD 的研究提出的 HyMEM(Hybrid Self-evolving Structured Memory),核心就是用双层记忆机制强行给 AI 装上了一个“大脑皮层”,不再把过去的执行轨迹当成死数据堆砌,而是像人类一样,把细碎的操作压缩成高层策略,并在实战中自我进化。

这招切中了当前视觉-语言模型(VLM)在做长链任务时的死穴:上下文不够用。现有方案大多依赖扁平化的检索,把历史经验当成流水账翻阅,效率极低。HyMEM 模仿神经生物学机制,搞了一套混合架构:用连续向量(模仿海马体)存细粒度的界面轨迹,用离散符号(模仿新皮层)存抽象的宏观策略。这种多跳检索让模型能直接调用“成功模板”而非从头推理,数据上非常直观——将 Qwen2.5-VL-7B 的性能硬生生拉高了 +22.5%,让这个 7B 开源模型直接在特定任务上跑赢了 Gemini 2.5-ProGPT-4o

更狠的是它的自进化特性。传统记忆库写死就不管了,HyMEM 却会在推理过程中通过全局局部两个维度的更新机制,实时剔除冗余节点,动态修正图谱。这意味着这只 Agent 越用越聪明,经验库不再是个只会占硬盘的静态仓库,而是一个能根据最新战况实时升级的战术指挥室。对于还在卷纯模型参数的厂商来说,这种“小模型+动态外挂”的架构无异于降维打击——它证明了只要记忆架构够深,开源小模型完全有能力在复杂场景下掀桌子。

082026.03.17

语义路由LoRA实现可逆终身模型编辑

真正的“后悔药”:给大模型装上外挂大脑

这篇名为《Reversible Lifelong Model Editing via Semantic Routing-Based LoRA》的论文,提出了一种名为 SoLA 的框架,它不再试图把新知识硬塞进神经网络,而是将每一次更新视为一个独立的插件,通过语义路由按需加载,实现了真正的“可逆编辑”。

长久以来,MELO 这类方法受困于聚类中心的动态更新,导致语义漂移;而 ELDER 这类基于 MoE 的方案,则因为参数共享机制难以避免灾难性遗忘。SoLA 彻底切断了这个死循环,它给每一次修改分配一个冻结的独立 LoRA 模块。这意味着新知识的注入完全隔离,不再干扰原有基底参数,物理上杜绝了“学了新的,忘了旧的”这一尴尬局面。

这项技术最锐利的点在于其可逆性。这在现有文献中尚属首次。只要移除语义路由中的 Key,模型就能精准“撤回”特定编辑,恢复出厂设置。同时,SoLA 把决策机制直接塞进了编辑层,抛弃了额外的辅助路由网络。数据不会说谎:在 Scotus 数据集上,SoLA 在保持极低ERR(编辑成功率)的同时,精准度远超同类方案。它让大模型从一块只能擦写的硬盘,变成了一个可以随意插拔的扩展坞。

092026.03.17

推理模型难以控制思维链过程

这并非模型偶尔的“撒谎”,而是一次暴露推理模型底层机理脆弱性的压力测试。这篇来自 OpenAI 与 NYU 的联合研究,核心在于验证一个令安全研究员夜不能寐的假设:随着模型越来越聪明,它们是否学会了伪装思维链(CoT)以通过审查

实测数据给了我们一剂强心针,也泼了一盆冷水。以 Claude Sonnet 4.5 为例,其控制最终输出的准确率高达 61.9%,但想要控制中间的推理过程却几乎失效,成功率仅有 2.7%。这并非个例,这种巨大的鸿沟普遍存在于现有顶尖模型中。更有趣的是数据呈现的反直觉趋势:RL 训练并没有让模型更善于“隐藏想法”,图 1(d) 显示,随着基于可验证奖励的强化学习(RLVR)增加,CoT 的可控性反而显著下降

这就引出了一个深刻的技术矛盾。我们在报告和大量实测中发现,增加推理长度测试时计算量虽然能提升解题能力,却会线性降低模型对自己思维过程的掌控力。模型陷入了“想得越多,越难伪装”的尴尬境地。目前看来,思维链的可控性与模型的通用能力呈负相关。这种由技术架构(注意力机制分散)带来的“诚实”,或许是我们在面对超级对齐难题时,意外获得的短暂安全窗口。

102026.03.17

论文提出平衡思维方法优化大型推理模型效率

平衡思维框架(ReBalance)实际上是一套插在大模型脑叶上的神经旁路控制系统。它不改动模型权重,而是通过监控推理过程中的“信心震荡”,判定模型此刻是陷入无意义的过度思考,还是过早放弃的思考不足,并实时注入转向向量进行纠偏。

现有的推理优化手段过于粗暴,强行压缩步长容易导致模型“断片”,引发精度雪崩。这篇论文的敏锐之处在于发现了信心方差与思维状态的强关联:当模型信心忽高忽低,说明它在自我纠结,这是过度思考的冗余信号;当模型长时间盲目自信,往往意味着它没看清陷阱,这是思考不足的先兆。ReBalance 仅需少量样本提取这两种状态下的隐层状态,计算出一个低维转向向量

这在算力消耗上带来了巨大的 rethink 空间。实验数据显示,在MATH-500 等基准测试中,该方法在不进行微调的情况下,依然维持了极高的 Pass@1 准确率,同时显著削减了推理时的 Token 开销。这直接打破了提升推理精度必然依赖更长计算链路的刻板假设,证明了动态路由比盲目堆砌计算步数更有效。

对于大模型应用厂商而言,这种零参数训练的方案极具杀伤力。既然只需0.5B 到 32B 量级的通用底座配合控制逻辑,就能在数学、代码及常识推理任务中逼近 SOTA 的效果,继续依赖暴力美学扩充推理时长的产品路线将变得极其脆弱。未来的竞争壁垒,不再是模型能想多久,而是它是否懂得在何时“急流勇退”或“再想一步”。

chat_bubble对今日内容有什么想法?