AgentFloor：小模型爬上了工具使用的“天花板”，GPT-5竟被平替

核心发现

小模型并非“战五渣”。一项名为AgentFloor的六层能力阶梯基准测试证明，参数不足10B的开源模型足以胜任生产系统中绝大多数75%以上的常规工具调用。在整体任务上，最强开源模型（32B）与GPT-5打成平手，但成本更低、速度更快。唯独在需要持久规划与约束追踪的复杂任务上，大模型依旧保有微弱优势。

[导读] 随着AI Agent落地，每次用户请求背后都伴随着大量模型调用。哪些调用必须动用“核武”GPT-5，哪些只需“轻骑兵”小模型？
AgentFloor的诞生
为解决这一路由难题，研究团队设计了30个确定性任务，层层递进构成六阶能力梯级（指令遵循、工具使用、多步协调到长时规划）。他们用这套基准对16款开源模型（从0.27B到32B）和GPT-5进行了16542次评分运行，终于绘制出“模型必要性”的清晰边界。
[核心突破] AgentFloor最炸裂的发现是小模型已在产品级常规任务上“毕业”。在短视野、结构化工具使用场景中，7B参数级别的模型表现直追GPT-5。值得关注的是，最强的32B开源模型在整个基准测试上与GPT-5总分持平，但计算成本与延迟仅为后者几分之一。

对比维度	小/中型开源模型 (7B-32B)	大模型旗舰 (GPT-5)
常规工具使用 (Tier 1-4)	胜任度极佳，平均得分 >85%	顶尖，但边际收益递减
长时规划与约束追踪 (Tier 5-6)	得分普遍 <40%，明显吃力	相对优势，但仍未达“可靠”
推理成本与速度	极低，可大规模部署	极高，适合关键复杂节点
整体基准平均分	最强模型与GPT-5持平	与最强开源模型持平

性能边界新启示

这揭示了“智能分配”的新范式：80%的常规工作让轻量模型跑，20%的“疑难杂症”留给重型旗舰。 这不仅是成本效率的胜利，更是对当前“唯大模型论”的理性纠偏。

[深度解析] 为什么小模型能频频逆袭？答案藏在了梯级测试的微观分析中。
- 失败模式非集群化：研究发现，小模型在Tier 5-6上的失败并非全参数不足导致。很多错误指向特定约束的“遗忘”或步骤间的协调失灵，而非推理能力瘫痪。
- 定向干预效果不一：对于同一梯级上的失败，尝试对模型进行针对性提示或微调后发现，修复方法往往模型特异——适用于A模型的解法，对B模型可能无效甚至有害。
  真实案例对比
  在“多工具依赖调用”任务中，一个小模型连续调用了三个API，但丢失了第二个API输出的关键状态。而GPT-5成功将其传递。然而，针对这一失败对模型进行内部记忆增强后，该小模型在4/6的类似问题上表现提升，但在剩余2/6的任务上却因“记忆干扰”导致新的错误。
- 能力边界非仅由参数决定：这意味着场景中的结构模式、任务连续性与模型的内在注意力机制共同构成了能力的天花板，参数规模只是一部分因素。
[未来展望] AgentFloor为AI Agent的架构师们绘制了一张清晰的路线图。
- 路由系统智能化：未来的Agent框架将内置智能路由器，将请求像寄快递一样分类，自动匹配最经济的模型。例如，一个“查询天气然后设定提醒”的请求会被直接分给本地小模型。
- 小模型定制化：针对梯级上的薄弱环节（如长时规划），会催生专用的小型规划模型，它们也许只有3B参数，但在复杂流程控制上经过专门增强。
- 混合Agent成为标准：一个Agent内部将存在“群像”——多个小模型负责感知与常规行动，一个大模型作为“大脑”处理核心推理与决策冲突。
  潜在陷阱
  但研究也敲响警钟：过分依赖模型规模预估性能是非常危险的。未来评估不能只看参数数量，必须像AgentFloor这样，深入到任务结构与交互复杂度中。

阅读原文：https://arxiv.org/abs/2605.00334