2026.05.10WEEKLY DEEP READS

OpenAI用GPT-5.x推导出理论物理与量子引力新结论

8 条·2026.05.10

DAILY BRIEF

01OpenAI用GPT-5.x推导出理论物理与量子引力新结论 02Anthropic-SpaceX达成5亿美元/年AI算力交易 03LLM越狱成功的原因被定位：少数神经元触发即可绕过安全对齐 04多个小模型协作替代单个大模型，SAT训练法保证每次更新都比上一次强 05LLM训练数据筛选：在线加权比离线挑选泛化能力更强 06把结果反馈拆成分步信号，LLM推理强化学习学得更快更准 07研究发现AI安全模型在微调中会失去保护能力 08奥斯卡官方新规：完全禁止AI获得表演与编剧类奖项

01 / 资讯2026.05.10

OpenAI用GPT-5.x推导出理论物理与量子引力新结论

此次案例展示了大模型在高度抽象的理论物理领域从“辅助计算”向“主动发现”的跨越。核心问题在于解决人类算力难以处理的复杂数学推导，特别是量子引力与高能物理中涉及多变量、高阶项的公式验证。其重要性在于打破了“AI 仅能处理已有知识”的刻板印象，证明了模型具备在训练截止日期之后，通过逻辑推理生成符合物理规律的新结论。

技术实现上，关键在于采用了“教科书级热身”的提示工程策略。在处理高难度物理问题时，先让模型解决基础教科书问题以激活相关数学模式，随后再切入前沿难题。这种方案与传统的符号计算软件不同，它不依赖预设的物理规则库，而是利用模型的隐式推理能力来处理非结构化的数学表达。

关键数据方面，OpenAI 的 GPT-5.x 系列展现了惊人的效率提升。物理学家 Alex Lupsasca 指出，GPT-5 在 30 分钟内复现了他耗时极长才完成的最佳论文成果。在与哈佛教授 Andrew Strominger 的合作中，针对困扰团队超过一年的“单负胶树振幅”问题，模型在 Strominger 教授访问 OpenAI 的一周行程内，甚至在 飞机落地之前 即给出了完整解答。该成果涉及一个跨越 1/4 页纸 的关键方程，包含 32 项求和，每项均为四个复杂公式的乘积，这种计算量对于人工推导而言几乎是不可逾越的障碍。

这一进展的理论创新点在于修正了物理学界的既有认知：证明了在某些特定情况下，原本被认为总是为零的胶子相互作用振幅可能非零。这表明 AI 已具备处理“锯齿状前沿”的能力，即在通用任务表现平平的情况下，在特定专业领域展现出超越人类专家的极限推理能力。然而，该方案的局限性在于高度依赖专家的引导与“启动”技巧，且模型输出的正确性仍需顶尖物理学家进行严格的同行评审，目前尚无法完全实现全自动化的科学发现。

SOURCE

Latent Space

022026.05.10

Anthropic-SpaceX达成5亿美元/年AI算力交易

此次合作的核心在于解决 Anthropic 面临的算力供给瓶颈。随着 Claude 用户量的激增，现有的基础设施已难以满足需求，导致频繁的限流。通过与 SpaceX 旗下的 xAI 达成协议，Anthropic 获得了 Colossus 1 超级集群的访问权，该设施拥有 300MW 的电力容量。据外界估算，这笔交易的年化金额高达 50 亿美元，标志着 xAI 正式转型为“新型云服务商”。

在执行层面，部署速度极快。Anthropic CTO Tom Brown 确认，模型推理工作将在 “几天内” 迅速迁移至新集群。算力扩充直接转化为产品指标的调整：Claude Code 的 5小时速率限制 翻倍，Pro 和 Max 版本的 高峰时段限制 被移除，Opus 模型的 API 速率限制 亦大幅提升。产品负责人 Amol Avasare 解释称，调整策略基于数据观察，即触及 5小时限制 的用户比例远高于触及 每周限制 的用户。

这一举措揭示了行业竞争格局的深层变化。Anthropic 选择与 xAI 合作，而非单纯依赖传统云厂商或自建，显示出在 AGI 竞赛中，算力获取已成为比算法更关键的制约因素。Dario Amodei 在活动中提出的 “单人十亿美元公司” 愿景，以及从“模型写代码”向 “模型构建商业单元” 的演进，均依赖于这种大规模算力底座的支撑。然而，巨额的算力开支也对 Anthropic 的现金流和 ARR（年经常性收入）增长提出了极高要求，外界推测其 ARR 增长率需维持在 8000% 的惊人水平以匹配此投入。

SOURCE

Latent Space

03 / 研究2026.05.10

LLM越狱成功的原因被定位：少数神经元触发即可绕过安全对齐

现有研究多从全局视角解释大模型越狱机制，认为其普遍源于中间表征中“有害性”概念的降低，但这种单一维度难以解释为何同一攻击策略对不同类型（如暴力与网络攻击）的恶意请求效果迥异。LOCA（Local, Causal Explanations）方法提出了一种局部因果解释框架，旨在定位特定越狱样本成功绕过安全对齐的具体神经元路径。

技术上，LOCA 不再依赖全局概念干预，而是通过迭代算法在中间表征空间进行搜索。该方法利用稀疏自动编码机（SAE）识别特征方向，并采用 Token 特定的一阶近似来计算补丁效应。其核心在于寻找一个最小的干预集合，当这些特定特征被“修补”回安全状态时，模型能恢复对恶意请求的拒绝。

实验数据显示，LOCA 在 Gemma 和 Llama 系列模型上表现出极高的定位效率。在越狱基准测试中，LOCA 平均仅需 6 次可解释的干预即可诱导模型对原本成功的越狱请求产生拒绝；相比之下，此前的方法在执行 20 次干预后往往仍无法触发拒绝机制。分析表明，越狱成功的关键因果因素高度集中在特定位置：在模型较早的层，对指令 Token 的干预最为关键；而在较后的层，LOCA 几乎完全依赖于对标点符号 Token 的修改来恢复安全行为。

该研究揭示了越狱并非需要全面压制安全概念，而是通过局部、微小的特征扰动即可实现。这表明现有的安全对齐可能仅依赖于少数脆弱的特征连接。然而，该方法目前主要基于白盒访问和特定模型架构，其计算成本较高，且对于更复杂的隐性攻击或黑盒场景的适用性仍有待验证。

SOURCE

arXiv cs.AI

042026.05.10

多个小模型协作替代单个大模型，SAT训练法保证每次更新都比上一次强

该研究提出了一种名为 Sequential Agent Tuning (SAT) 的训练范式，旨在解决多智能体大模型（LLM）协作中的训练不稳定性与协调难题。其核心动机在于利用多个小参数模型（如 4B 级别）的协作来替代昂贵的大参数模型（如 32B 级别），以降低部署成本并突破单体模型的性能天花板。

在技术路径上，SAT 摒弃了依赖中心化控制器的传统做法，将团队策略建模为因子化策略，并采用块坐标更新进行去中心化训练。针对多智能体更新过程中产生的“分布漂移”问题，该方法引入了序列感知的优势估计器，并结合针对每个智能体的 KL 散度信任区域来隔离占用率漂移。这种设计在理论上提供了单调改进保证，即每次更新后的策略性能均不低于更新前，同时证明了即插即用不变性，允许在不重新训练其余成员的情况下替换更强的智能体。

实验数据验证了该方法的有效性。在 AIME24/25 基准测试中，由 SAT 训练的三个 4B 智能体组成的团队（总参数 12B），其平均性能超越了 Qwen3-32B 模型，胜出幅度达到 3.9%。在即插即用测试中，将团队中的两个 4B 智能体替换为 8B 模型后，复合评分提升了 10.4%，证实了其理论推导中的性能下界提升。

尽管该方案在异构模型协作和成本效益上表现优异，但其理论框架依赖于对环境动态和策略分布的特定假设，实际应用中的收敛速度与计算开销仍需在更复杂的任务中进一步验证。

SOURCE

arXiv cs.LG (ML)

052026.05.10

LLM训练数据筛选：在线加权比离线挑选泛化能力更强

大语言模型训练中的数据筛选通常采用离线范式，即在训练开始前通过代理模型对数据进行静态筛选或重采样。该研究指出，这种“预训练-筛选-再训练”的分离式流程存在工程开销大且难以适应模型动态变化的缺陷。更重要的是，硬性筛选往往会牺牲数据多样性，导致模型在特定基准上过拟合，从而损害泛化能力。

针对上述问题，研究提出了 ADAPT 框架，将数据筛选重新定义为一个在线重加权问题。该方法的核心在于不改变训练样本数量，而是通过自适应学习率机制动态调整样本权重。具体而言，ADAPT 利用基于相似度的质量信号，在训练过程中为每个样本分配独立的学习率。随着模型状态的演化，该框架能够隐式地执行课程学习，使模型在早期阶段关注粗粒度模式，后期转向细粒度语义区分。

实验结果验证了在线方法优于离线静态筛选。在指令微调任务中，ADAPT 在相等 FLOPs（浮点运算数）预算下，表现优于传统的离线数据选择与混合方法以及先前的在线方法。在大规模预训练场景下，该方法同样展现出更强的跨基准泛化能力。这表明，通过动态调整样本重要性而非静态剔除数据，能够更有效地利用算力并提升模型性能。

SOURCE

arXiv cs.LG (ML)

062026.05.10

把结果反馈拆成分步信号，LLM推理强化学习学得更快更准

现有的大模型推理强化学习主要面临“信用分配”难题：当最终答案错误时，传统方法通常对整个推理路径施加均匀惩罚，导致模型难以区分路径中的正确推理步骤与关键错误点。这项来自阿里巴巴与清华大学的研究提出了一种名为 IOP（Internalized Outcome supervision into Process supervision，内化过程监督） 的新范式，旨在仅利用结果级监督信号，自动生成细粒度的过程级学习信号。

该方案的核心机制在于“轨迹修复”。模型首先生成一组推理路径，依据最终结果将其划分为正确与错误两类。对于错误路径，模型并不直接丢弃，而是保留正确的前缀步骤，仅对后续错误部分进行重新采样和修复。通过将修复后的成功路径与原始失败路径进行比对，算法能够精确定位发生错误的 Token，并利用“截断差异掩码”仅对错误部分施加梯度更新。实验数据显示，该方法在数学推理任务上平均准确率提升了 6.9%，样本效率达到基线方法的 2.3 倍。

这一方法的技术价值在于将过程监督的构建从“外部标注”转变为“内化生成”。它无需依赖昂贵的人工过程标注或独立的奖励模型，而是通过模型自身的修复能力，在训练过程中动态合成过程监督数据。这种“双边差异门控”机制有效避免了结果监督中的奖励黑客问题，使得模型能够从失败样本中提取比传统 RL 更精准的反馈。然而，该框架的有效性高度依赖于模型自身的修复能力，若模型在冷启动阶段无法生成有效的修复路径，或者错误步骤过于靠前，则监督信号的生成质量将受到显著影响。

SOURCE

arXiv cs.LG (ML)

072026.05.10

研究发现AI安全模型在微调中会失去保护能力

这项研究揭示了智能体架构中专用安全模型面临的一个根本性脆弱性：即便仅使用完全良性的数据进行标准的领域微调，也会导致安全护栏失效。实验选取了 LlamaGuard、WildGuard 和 Granite Guardian 三款专用安全分类器进行验证，结果显示这种失效并非源于对抗性攻击，而是源于模型内部“潜在安全几何结构”的崩塌。

从技术原理来看，安全模型依赖于在激活空间中构建结构化的有害-良性表征边界。研究人员利用 SVD 分解提取了逐层安全子空间，并追踪了边界在微调过程中的演变。数据表明，Granite Guardian 遭受了完全的几何崩塌，其拒绝率从 85% 骤降至 0%，中心核对齐（CKA）降至零，100% 的输出变得模棱两可。这种严重程度超过了此前关于通用 LLM 的发现，研究将其归因于“专业化假设”：高度集中的安全表征虽然高效，但也极其脆弱。

针对这一问题，论文提出了 Fisher 加权安全子空间正则化（FW-SSR）方案。该方法结合了基于对角 Fisher 信息矩阵的曲率感知方向权重，以及随任务-安全梯度冲突程度自适应缩放的 $\lambda$ 调度器。实验结果显示，FW-SSR 成功恢复了 Granite Guardian 75% 的拒绝率（CKA 恢复至 0.983），并将 WildGuard 的攻击成功率（ASR）降低至 3.6%，甚至低于未经修改的基线水平。这一结果表明，结构性表征几何（CKA、Fisher 分数）比绝对位移指标更能可靠地预测安全行为，为智能体部署中的安全评估提供了新的维度。

SOURCE

arXiv cs.LG (ML)

08 / 资讯2026.05.10

奥斯卡官方新规：完全禁止AI获得表演与编剧类奖项

美国电影艺术与科学学院近期颁布了针对第 99 届奥斯卡金像奖的全新资格规则，对生成式 AI 在影视制作中的应用划定了明确界限。此次规则调整的核心在于确立了“人类主体性”在表演与编剧奖项中的绝对地位，旨在应对 AI 技术介入创作所带来的伦理与版权争议。

在技术界定上，新规对表演类奖项提出了双重约束：参评角色必须出现在影片的法律演职员表中，且必须由“在获得其同意的情况下由人类真实表演”。这一条款直接否定了基于合成数据或数字替身技术生成的“虚拟演员”获得表演奖项的资格。针对编剧类别，学院要求剧本必须为“人类撰写”。这意味着即便使用了辅助写作工具，核心创作成果仍需追溯到人类作者，从而排除了全自动生成剧本的获奖可能性。

这一政策背景源于近期行业内的技术尝试，如 AI 生成演员 Tilly Norwood 的出现，以及利用生成式 AI 复原已故演员 Val Kilmer 声音与影像的案例。学院此举并未禁止制片方在制作环节使用 AI，而是通过奖项准入机制建立了价值导向：技术仅可作为制作手段存在，不能替代创作主体。

值得注意的是，目前的禁令仅覆盖表演与编剧两个核心创作环节。学院尚未对视觉效果、服装设计或原创配乐等类别制定针对 AI 的限制规则。这表明在高度依赖技术实现的工种中，AI 的应用边界仍处于模糊地带，未来可能引发关于“辅助”与“创作”界限的进一步界定。

SOURCE

HN AI 精选

chat_bubble对今日内容有什么想法？