功能测试的常用方法6种

滚动播报 2026-05-05 02:37:00

（来源：上观新闻）

大自然里没🇲🇩♿有抄袭🙂，但工程师⛱🔯是可以看论文的🌤🇸🇾功能测试的常用方法6种。Agent 的🧟‍♀️🗨“烧钱问题”，不🌦是 B🔵ug，而是行🇹🇫业必经的阵痛🚼👠 这篇论文揭示的🤼‍♀️🇧🇲并非某个模型⤴🤢的缺陷，而是整个🦗 Agent👩‍💼 范式的结构性🇩🇲挑战——🚰🤯当 AI 从“🔂一问一答🚉🔦”进化到🇹🇻🚱“自主规划🌪、多步执行、反🏏复调试”，To❇ken🗼 消耗的不可🇩🇴预测性几乎是一🐏🇸🇲种必然🦘🤞。

研究者把🍐所有模型都🕺🔸成功解🚌决的任务🏵（23◻🛷0 个）和所有🆚模型都失败🥟的任务（🇬🇾100 个◀🇮🇴）分别拿出来🏤比较，发现模型的🐠相对排名几乎没🇰🇮有变化😂。

在 Goo🕜gle 对 🚂Gemini 🏄‍♀️3 的内部评估⏏中，模🗾型单独运行时的错🔆⛵误率是 28%💒🔜。Germain 🌳说：「它把🍆我网站上🧞‍♀️的东西🦠🇰🇭当成真😤⏮理一样吐出来🈷。多数模型的预测🍨🇬🇸相关性只有 0📨.05 到 🌓🙎‍♂️0.34🇺🇲 之间，Ge♋🦜mini-3🧣-Pro 🐉功能测试的常用方法6种最低，仅为 0.📰💰04——基本等于🇨🇻瞎猜🚜。