---
id: 20260328-T0-12
title: "FinMCP-Bench：首个金融工具调用基准，测试LLM代理真实交易能力"
url: https://ai.daily.yangsir.net/daily/20260328-T0-12
issue_date: 2026-03-28
publish_date: 2026-03-27T04:00:00.000Z
source_name: "arXiv cs.AI"
source_url: https://arxiv.org/abs/2603.24943
---

# FinMCP-Bench：首个金融工具调用基准，测试LLM代理真实交易能力

论文提出FinMCP-Bench基准测试，基于MCP协议评估LLM代理在真实金融场景中的工具调用能力。测试覆盖市场数据查询、交易执行、风险评估等多个维度，结果显示当前最强模型在复杂多步金融操作中的准确率仍不到60%，暴露了代理在真实交易环境中的可靠性短板。

---

**来源**：[arXiv cs.AI](https://arxiv.org/abs/2603.24943)

**详情页**：https://ai.daily.yangsir.net/daily/20260328-T0-12

---

*智语观潮 · Daily — https://ai.daily.yangsir.net/llms.txt*