HumanMCP数据集发布：模拟人类查询评估MCP工具检索性能

022026.03.02 13:00

通用语义分块框架：超长文档主题分割新方法

研究人员提出通用语义分块框架，针对超长文档的主题分割问题。该方法通过判别式模型解决传统方法在固定窗口大小限制下的局限性，在信息检索和文档理解任务中表现出色，处理100万字以上文档的准确率提升15%。

SOURCE

032026.03.02 13:00

基于表征擦除的偏好优化降低LLM有毒输出

研究人员提出表征擦除偏好优化方法，有效降低大型语言模型的有毒输出概率。该方法在保持模型性能的同时，将有害内容生成率降低40%，优于传统的DPO和NPO算法，为AI安全部署提供了新思路。

SOURCE

04 / 工具2026.03.02 08:45

OpenAI Codex发布0.107.0-alpha.9版本更新

OpenAI Codex发布0.107.0-alpha.9版本，这是近期的第9个alpha版本更新。此次更新主要包含性能优化和bug修复，延续了Codex系列的快速迭代节奏，旨在提升代码生成质量和稳定性。

SOURCE

OpenAI Codex Releases

052026.03.02 13:03

OpenClaw 2026.3.1更新：默认启用自适应推理模式

OpenClaw发布2026.3.1版本，将Anthropic Claude 4.6模型的默认推理级别设置为自适应，同时为其他推理能力强的模型保留低级别设置。新增内置HTTP健康检查端点，提升容器网关的监控能力。

SOURCE

OpenClaw Releases

06 / 研究2026.03.02 13:00

智能LLM框架应用于反洗钱负面新闻筛查

研究人员提出基于智能LLM的框架，用于金融反洗钱合规中的负面新闻筛查。该方法解决了传统关键词搜索高误报率的问题，通过语义理解提升筛查准确率，已在多家银行试点应用，降低70%的误报情况。

SOURCE

072026.03.02 13:00

Task-Lens：通过跨任务效用分析低资源印度语语音数据集

Task-Lens是一款针对低资源印度语语音数据集的分析工具。该研究解决了低资源语言中特定任务资源认知不足的问题，通过跨任务效用分析优化数据集配置。研究表明，该方法能有效提升NLP模型在多语言环境下的性能，适用于语音识别和自然语言处理研究。开发者可利用该工具快速识别高质量数据集，减少数据收集成本。

SOURCE

082026.03.02 13:00

U-CAN：基于效用感知对比衰减的生成式推荐高效遗忘

U-CAN是一种针对生成式推荐系统的用户数据遗忘方法。该研究通过效用感知对比衰减技术，在保留模型推荐功能的同时精准移除用户敏感信息。实验证明，该方法能在不显著降低推荐准确率的情况下，有效减少敏感属性编码，适用于隐私保护场景。企业可用该技术合规处理用户日志，避免数据泄露风险。

SOURCE

092026.03.02 13:00

反事实数据因果识别研究：完整性与边界结果

该论文针对Pearl因果层次论中的反事实识别问题，提出了完整性和边界结果。研究扩展了传统观察和干预数据之外的因果识别范围，证明了在更复杂条件下的因果推断可行性。实验表明，该方法能准确处理多变量反事实场景，为因果机器学习提供新工具。研究者可用此框架构建更鲁棒的因果模型。

SOURCE

102026.03.02 13:00

截断步级采样与过程奖励用于检索增强推理

该研究提出了一种基于截断步级采样的检索增强推理方法。通过在多步轨迹中引入过程奖励机制，解决了传统强化学习中信用分配问题。实验显示，该方法将推理延迟降低40%，同时保持与Search-R1相当的准确性。适用于需要实时反馈的复杂推理任务，如搜索引擎交互式问答。

SOURCE

112026.03.02 13:00

量子机器学习的长程频率调优技术

该研究提出量子机器学习中的长程频率调优方法。通过优化角度编码的傅里叶级数截断，显著降低了量子电路深度需求。实验表明，该方法将参数规模减少至O(ω)级别，同时保持通用函数逼近能力。适用于资源受限的量子计算设备，可提升QML模型训练效率。

SOURCE

122026.03.02 13:00

基于因果POMDP的分布偏移规划方法

该研究提出因果部分可观测马尔可夫决策框架，用于解决实际环境中的分布偏移问题。该方法通过环境动态建模，准确捕捉状态分布变化对规划的影响。实验证明，在动态变化环境中，其规划成功率比传统方法高25%。适用于自动驾驶、机器人控制等需要适应环境变化的场景。

SOURCE

132026.03.02 13:00

CiteAudit：大时代科学引用真实性基准测试

CiteAudit是首个专门验证大模型引用真实性的基准测试。该研究揭示了LLM生成虚假引用的严重性，测试显示主流模型错误率高达18%。基准包含1万+真实和虚假引用对，可评估模型在科学文献检索和验证能力。科研机构可用该工具审查论文引用质量，防止学术不端。

SOURCE

142026.03.02 13:00

Brain-OF：多功能脑影像基础模型

Brain-OF是首个同时支持fMRI、EEG和MEG的多模态脑影像基础模型。该研究通过统一时空特征提取，实现了三种模态的数据融合。实验表明，在脑区分类任务中，其准确率比单模态模型高12%。适用于神经科学研究中的跨模态分析，可帮助医生更精准地进行脑疾病诊断。

SOURCE

152026.03.02 13:00

基于强化学习的min-max多旅行商问题优化

该研究提出一种强化学习方法解决min-max多旅行商问题。通过构建、合并、求解和适应四阶段框架，有效优化多路径规划。实验显示，该方法将最长路径长度缩短15%，同时保持整体效率。适用于物流配送、车辆路径规划等需要平衡负载分配的场景。

SOURCE

162026.03.02 13:00

FHIRPath-QA：电子健康记录可执行问答系统

FHIRPath-QA是首个基于FHIR标准的电子健康记录问答系统。该研究通过可执行查询语言，直接从EHR数据中生成准确答案。测试证明，其在临床问题回答上的准确率达89%，远超传统界面。适用于患者自主查询病历场景，可帮助非专业人士理解复杂医疗数据。

SOURCE

172026.03.02 13:00

Meta-Evolution工具EvoX发布：自动化优化算法准确率提升35%

Meta研究人员推出EvoX工具，结合LLM优化与进化搜索，实现跨领域算法自动化改进。实验显示，该工具在程序生成、提示优化和算法设计任务中，平均性能提升35%，优于现有AlphaEvolve方案。EvoX通过复用历史评估数据加速优化，适用于AI模型调优、自动化代码生成等场景，开发者可直接使用其API集成到现有工作流。

SOURCE