2026.03.13DAILY REPORT

Turbopuffer创始人谈检索增强混合搜索策略

15 条·2026.03.13

DAILY BRIEF

01Turbopuffer创始人谈检索增强混合搜索策略 02arXiv论文提出数据产品智能优化框架 03Web访问CLI工具实现媒体内容搜索 04GhazalBench评测LLM波斯诗歌处理能力 05arXiv论文提出LLM可解释遗忘方法 06OpenAI Codex发布0.115.0-alpha.15版本，迭代至第15个预览版 07arXiv研究LLM书籍摘要：直接阅读优于记忆，百万token上下文优化效率 08arXiv提出MoE-SpAc技术，优化异构边缘场景下的MoE推理效率 09AraModernBERT：采用跨token初始化的阿拉伯语长上下文编码器 10个性化群体相对策略优化实现异构偏好对齐 11高效混合深度学习方法检测网络虐待性语言 12LWM-Temporal：基于稀疏时空注意力的无线信道表示学习 13通过不精确概率表达LLM的高阶不确定性 14大语言模型的邓宁-克鲁格效应：置信度校准实证研究 15门控适应持续学习方法提升人体活动识别

01 / 资讯2026.03.13 06:56

Turbopuffer创始人谈检索增强混合搜索策略

Turbopuffer创始人Simon Hørup Eskildsen分享了检索增强（RAG）后的混合搜索技术，包括智能体设计和数据库优化。该公司从阅读应用起步，现在专注于构建高效的检索系统，解决传统搜索的局限性。

SOURCE

Latent Space

02 / 研究2026.03.12 12:00

arXiv论文提出数据产品智能优化框架

arXiv论文2603.10133v1提出数据产品智能控制中心框架，通过示例问题-SQL对和数据库视图优化，帮助用户更高效地分析数据。该框架针对数据产品生产中的资产管理问题提供解决方案，支持复杂查询的自动生成与优化。

SOURCE

arXiv cs.AI

03 / 资讯2026.03.12 22:03

Web访问CLI工具实现媒体内容搜索

新型CLI工具通过沙箱环境实现对各类媒体内容的搜索功能，类似OpenClaw的开源实现。这些工具支持直接网络访问，为开发者提供了轻量级的媒体检索解决方案。

SOURCE

Ben's Bites

04 / 研究2026.03.12 12:00

GhazalBench评测LLM波斯诗歌处理能力

arXiv论文2603.09979v1发布GhazalBench基准，测试大模型对波斯诗歌（特别是哈菲兹诗作）的理解与生成能力。该基准基于实际使用场景，评估模型在诗歌引用、释义和补全任务中的表现。

SOURCE

arXiv cs.CL (NLP)

052026.03.12 12:00

arXiv论文提出LLM可解释遗忘方法

arXiv论文2603.09980v1提出基于推理的大模型可解释遗忘方法，通过安全消除特定知识来解决版权、隐私等风险。相比偏好对齐，该方法提供更明确的知识移除机制，适用于敏感数据清理场景。

SOURCE

arXiv cs.LG (ML)

06 / 工具2026.03.13 08:50

OpenAI Codex发布0.115.0-alpha.15版本，迭代至第15个预览版

OpenAI Codex发布0.115.0-alpha.15，这是该版本的第15个预览迭代。此前版本包括0.115.0-alpha.14至0.115.0-alpha.6，以及rust-v0.115.0-alpha.8至v0.115.0-alpha.10。持续更新显示项目快速迭代中，但未披露具体功能改进。

SOURCE

OpenAI Codex Releases

07 / 研究2026.03.12 12:00