回到列表

AgentFloor:小模型爬上了工具使用的“天花板”,GPT-5竟被平替

核心发现
小模型并非“战五渣”。一项名为AgentFloor的六层能力阶梯基准测试证明,参数不足10B的开源模型足以胜任生产系统中绝大多数75%以上的常规工具调用。在整体任务上,最强开源模型(32B)与GPT-5打成平手,但成本更低、速度更快。唯独在需要持久规划与约束追踪的复杂任务上,大模型依旧保有微弱优势。
  • [导读] 随着AI Agent落地,每次用户请求背后都伴随着大量模型调用。哪些调用必须动用“核武”GPT-5,哪些只需“轻骑兵”小模型?

    AgentFloor的诞生为解决这一路由难题,研究团队设计了30个确定性任务,层层递进构成六阶能力梯级(指令遵循、工具使用、多步协调到长时规划)。他们用这套基准对16款开源模型(从0.27B到32B)和GPT-5进行了16542次评分运行,终于绘制出“模型必要性”的清晰边界。

  • [核心突破] AgentFloor最炸裂的发现是小模型已在产品级常规任务上“毕业”。在短视野、结构化工具使用场景中,7B参数级别的模型表现直追GPT-5。值得关注的是,最强的32B开源模型在整个基准测试上与GPT-5总分持平,但计算成本与延迟仅为后者几分之一。

对比维度小/中型开源模型 (7B-32B)大模型旗舰 (GPT-5)
常规工具使用 (Tier 1-4)胜任度极佳,平均得分 >85%顶尖,但边际收益递减
长时规划与约束追踪 (Tier 5-6)得分普遍 <40%,明显吃力相对优势,但仍未达“可靠”
推理成本与速度极低,可大规模部署极高,适合关键复杂节点
整体基准平均分最强模型与GPT-5持平与最强开源模型持平
性能边界新启示
这揭示了“智能分配”的新范式:80%的常规工作让轻量模型跑,20%的“疑难杂症”留给重型旗舰。 这不仅是成本效率的胜利,更是对当前“唯大模型论”的理性纠偏。
  • [深度解析] 为什么小模型能频频逆袭?答案藏在了梯级测试的微观分析中。

    • 失败模式非集群化:研究发现,小模型在Tier 5-6上的失败并非全参数不足导致。很多错误指向特定约束的“遗忘”步骤间的协调失灵,而非推理能力瘫痪。
    • 定向干预效果不一:对于同一梯级上的失败,尝试对模型进行针对性提示或微调后发现,修复方法往往模型特异——适用于A模型的解法,对B模型可能无效甚至有害。
      真实案例对比在“多工具依赖调用”任务中,一个小模型连续调用了三个API,但丢失了第二个API输出的关键状态。而GPT-5成功将其传递。然而,针对这一失败对模型进行内部记忆增强后,该小模型在4/6的类似问题上表现提升,但在剩余2/6的任务上却因“记忆干扰”导致新的错误。
    • 能力边界非仅由参数决定:这意味着场景中的结构模式任务连续性与模型的内在注意力机制共同构成了能力的天花板,参数规模只是一部分因素。
  • [未来展望] AgentFloor为AI Agent的架构师们绘制了一张清晰的路线图。

    • 路由系统智能化:未来的Agent框架将内置智能路由器,将请求像寄快递一样分类,自动匹配最经济的模型。例如,一个“查询天气然后设定提醒”的请求会被直接分给本地小模型。
    • 小模型定制化:针对梯级上的薄弱环节(如长时规划),会催生专用的小型规划模型,它们也许只有3B参数,但在复杂流程控制上经过专门增强。
    • 混合Agent成为标准:一个Agent内部将存在“群像”——多个小模型负责感知与常规行动,一个大模型作为“大脑”处理核心推理与决策冲突。
      潜在陷阱
      但研究也敲响警钟:过分依赖模型规模预估性能是非常危险的。未来评估不能只看参数数量,必须像AgentFloor这样,深入到任务结构与交互复杂度中。

阅读原文https://arxiv.org/abs/2605.00334