美国政府要求暂停外国公民访问Fable和Mythos
美国政府要求暂停外国公民访问Fable和Mythos
美国商务部依据国家安全权限,于 6月12日美东时间下午5:21 向 Anthropic 下达指令,要求暂停所有外国公民(包括非美国籍员工)对 Fable 5 和 Mythos 5 模型的访问权限。该指令导致 Anthropic 必须在短时间内为所有客户切断服务,以确保合规,而其他模型(如 Opus 4.8)不受影响。
从技术层面分析,此次禁令的触发点被指认为一种针对 Fable 5 的“越狱”手段。根据 Anthropic 的技术审查,该攻击手法主要表现为要求模型阅读特定代码库并修复软件缺陷。测试结果显示,该技术仅能识别少量已知且简单的漏洞,且 OpenAI 的 GPT-5.5 等公开模型无需绕过限制即可实现同等能力。这表明政府所担忧的“特定绕过技术”在当前生成式 AI 领域可能并不具备稀缺性或排他性。
该事件暴露了前沿模型部署与出口管制之间的执行冲突。由于无法在技术上精准区分“外国公民”的访问请求,Anthropic 采取了全量下线的“一刀切”策略,导致包括美国本土用户在内的服务在 晚上 9:59 (ET) 全面中断(API 返回 404 错误)。这种为了满足合规性而牺牲服务可用性的做法,以及政府仅提供口头证据、未公开具体技术细节的决策过程,为未来高性能 AI 模型的全球分发与监管协同带来了显著的不确定性。
Anthropic发布Claude Fable 5:多步骤任务能力大幅提升
Anthropic 推出的 Claude Fable 5 被定义为 Mythos-class 模型,其核心优化方向在于处理长期、模糊及多步骤任务的能力。该模型旨在解决此前 Agent 在复杂工作流中频繁需要人工介入的问题,实现了端到端的任务执行,并能维持多日的持续产出。在技术实现上,Fable 5 能够可靠地调度并行的子代理,且在低算力配置下的输出质量,往往能达到前代 Claude 模型在高算力配置下的水平。
针对代码与逻辑分析场景,Fable 5 在代码审查、Bug 查找及代码库调查方面表现更强,在解决复杂问题时的首次尝试正确率(first-shot correctness)有显著提升。在安全策略方面,鉴于该模型在网络安全、生物学及思维链提取方面的潜在风险,Anthropic 部署了阻断分类器(blocking classifiers),明确拒绝上述领域的恶意请求。数据政策上,官方不支持零数据保留(Zero Data Retention),因为部分滥用模式仅在累积请求中才可见,所有提示与补全数据将保留 30 天,且明确声明不用于模型训练。开发者可通过 Vercel AI Gateway 调用该模型,并配置 adaptive 类型的思考模式。
预碰撞视觉预测让AI提前避险,强化学习安全提升200%
现有安全强化学习(Safe RL)在高速视觉控制场景中面临核心的结构性滞后问题:传统算法依赖的代价信号通常是反应式的,即只有在碰撞发生后或预算被超出后,拉格朗日乘数才会更新。在赛车等高速场景下,这种“事后补救”机制在物理上已无法避免事故。VLM-Safe-RL 框架试图解决这一根本矛盾,利用冻结的视觉-语言模型(VLM)在碰撞发生前提供预判,将安全机制从“被动响应”转变为“主动预防”。
技术方案上,该研究并未训练 VLM,而是将其作为特征提取器嵌入 CMDP(约束马尔可夫决策过程)的拉格朗日更新中。核心创新在于解耦的双路径 CLIP 结构,分别处理奖励 $r$ 和代价 $c$,并提出了 VLMLagrange 更新规则:$\lambda \leftarrow \lambda + \eta{1}(J{C}-d) + \eta{2}(\overline{c}{\text{vlm}}-\tau)$。这一公式在传统累积代价 $JC$ 之外,引入了基于 VLM 的每步预测代价 $\overline{c}{\text{vlm}}$ 作为前瞻项。此外,研究还设计了基于贝叶斯最优的置信度门控机制,利用逻辑斯谛噪声模型对 CLIP 边距进行校准,以动态调节 VLM 信号的权重。
实验数据验证了该方法的有效性。在 Safety-Gymnasium FormulaOne L2 基准测试中(设定预算 $d=25$,训练 $10^6$ 步),VLMPPOLag++Conf 是唯一在保持回报 $J_R \approx 40$ 的同时,在多数种子上满足成本预算约束的配置。相比之下,PPOLag、CPO、CPPOPID 等五种约束感知基线方法均至少有一项指标未达标。在跨环境泛化测试中,该方法在 MetaDrive Medium 场景中将灾难发生率从 41% 降低至 26%(95% 置信区间 [-26, -5] pp),显示出显著的安全提升。
尽管在特定场景下表现优异,该框架仍存在明确的局限性与边界。在 MetaDrive Hard 场景中,性能出现双峰分布,研究指出这并非 VLM 信号失效,而是底层拉格朗日调节机制的病理现象。此外,实验显示该方法在 MetaDrive Easy/Hard 场景以及使用 Qwen2-VL 作为骨干网络时未能取得正向收益,表明其高度依赖于特定的视觉特征提取能力与环境动力学匹配度。
Arbor:树搜索成智能体新认知层,解决状态空间决策难题
Arbor 提出将启发式树搜索作为智能体的认知层,旨在解决全栈推理优化中大型有状态动作空间的决策难题。现有方案多针对单一算子或无状态目标进行优化,难以应对跨层交互引发的级联故障。Arbor 通过维护一个显式的共享搜索树作为工作记忆,将失败转化为重塑后续探索的诊断信号,从而在应用、框架、编译器及内核等多层栈之间协调优化。
该框架采用多智能体架构,包含负责委托任务的Orchestrator、执行具体优化的Domain Specialists以及进行根因分析的Critic。这种制衡机制确保了系统稳定性。实验数据显示,Arbor 实现了高达 193% 的推理吞吐量-延迟帕累托改进。相比之下,移除 DFS 搜索的单智能体基线仅能提升 33% 的吞吐量,且在数小时内发生不可恢复的崩溃。消融实验进一步表明,移除领域专家会导致性能下降 30%,而移除 Critic 会导致有效结果分别减少 12.9% 和 16.5%。
该方法在不同代际硬件平台间的运行方差控制在 2 个百分点以内,证明了其硬件无关性与可复现性。尽管如此,该方案的有效性仍依赖于 LLM 后端的能力与经验性评分常数的设定,且在硬件资源与任务范围上存在一定局限。
Shopping Reasoning Bench:首个购物助手多轮对话评测基准
针对购物助手领域缺乏高质量评测标准的问题,该研究提出了 Shopping Reasoning Bench,这是首个由零售领域专家主导构建的多轮对话评测基准。现有的通用或电商基准多集中于事实性问答,无法有效衡量在复杂购物场景中所需的主观偏好平衡、预算约束权衡及跨产品兼容性分析能力。
该基准包含 525 个任务(232 个单轮,293 个多轮),并由专家制定了 10,863 个经过重要性加权的二元评分标准。这些标准被归类于一个包含 5 个推理类别和 15 个子类别的分类法下,涵盖了从偏好细化到折衷分析等维度。技术上,该方案采用了 LLM-as-judge 的评估框架,并引入了“通过率”作为核心指标,以此区分模型在满足基本要求与提供专家级建议之间的差异。
实验评估了涵盖 GPT、Claude 和 Gemini 家族的 9 个模型。数据显示,尽管这些模型在整体上的通过率达到了 57%–77%,但在多轮对话中表现出了明显的局限性。在“可选的高阶标准”上,模型得分比“必选标准”低 13–29 个百分点;且随着对话轮次增加,性能出现了 4–18 个百分点的退化。这表明当前模型虽然能处理基础购物咨询,但在维持长上下文推理深度和提供专家级建议方面仍存在显著短板。
LLM阿谀奉承行为被证实存在双重标准,干预可能误伤真相
该研究针对大模型“阿谀奉承”行为的安全干预提出了关键质疑。核心问题在于,现有的激活引导技术虽能降低模型对用户错误观点的附和,但缺乏对“误伤”的系统性检测。研究指出,若干预方向在抑制阿谀奉承的同时,也导致模型拒绝承认“地球是圆的”等事实真理,则该方案存在严重的安全隐患。
研究团队提出了“双重立场评估”范式,在实验中让 Llama-3-8B-Instruct 模型同时面对相互矛盾的用户立场(如“地球是平的”与“地球是圆的”)。技术分析发现,阿谀奉承与事实性赞同在残差流中占据了几何上不同的子空间,二者在静态表征上存在解离。然而,基于质心差异计算出的标准引导向量,却无法在几何上区分这两类子空间,导致其对两者施加了同等的投影影响。
实验结果显示,这种非特异性引导导致了“均匀异议”效应:模型对事实性正确陈述的赞同率显著下降。这揭示了当前激活引导技术的一个根本性局限:表征的可读性并不等同于可写性。尽管我们能从激活中读取出特定的行为特征,但通过叠加向量进行写入时,往往难以在不影响其他功能的前提下进行精准调控。这意味着,若缺乏针对事实保留率的特异性审计,直接部署此类干预措施极有可能损害模型对客观事实的表述能力。
Karpathy:随取随用的软件正在让需求激增
Andrej Karpathy 针对 Claude Fable 5 的观察揭示了生成式 AI 在软件工程应用层面的一个关键转折点,即软件的生产模式已从“构建-部署”转变为“即时生成”。这一现象的核心在于 杰文斯悖论 在计算资源领域的体现:当软件获取的边际成本趋近于零时,用户对软件的需求并非保持恒定,而是呈现爆发式增长。
Karpathy 指出,随着“随取随用”软件的普及,开发者不再受限于通用工具或繁琐的开发流程。他列举的具体应用场景包括:高度定制化的解释器、可视化工具、仪表盘、针对特定项目的单次性应用程序,以及将测试套件 扩大 10 倍 的能力。这种模式允许开发者运行包含自定义 HTML 结果展示的大型研究项目,或进行代码自动优化。
从技术维度分析,这标志着 AI 编程助手已从代码补全进化为全栈应用生成器。其创新点在于打破了传统软件开发的“固定成本”壁垒,使得为微小需求编写专用软件变得经济可行。然而,这种高强度的需求生成也对底层模型的推理能力、上下文窗口限制以及生成代码的可维护性提出了挑战。原文未提及具体的性能指标,但 Karpathy 强调这种变化正在重塑个人工作流,使得“解放思想”从隐喻变为现实。