功能测试的常用方法6种
(来源:上观新闻)
大自然里没🇲🇩♿有抄袭🙂,但工程师⛱🔯是可以看论文的🌤🇸🇾功能测试的常用方法6种。Agent 的🧟♀️🗨“烧钱问题”,不🌦是 B🔵ug,而是行🇹🇫业必经的阵痛🚼👠 这篇论文揭示的🤼♀️🇧🇲并非某个模型⤴🤢的缺陷,而是整个🦗 Agent👩💼 范式的结构性🇩🇲挑战——🚰🤯当 AI 从“🔂一问一答🚉🔦”进化到🇹🇻🚱“自主规划🌪、多步执行、反🏏复调试”,To❇ken🗼 消耗的不可🇩🇴预测性几乎是一🐏🇸🇲种必然🦘🤞。
研究者把🍐所有模型都🕺🔸成功解🚌决的任务🏵(23◻🛷0 个)和所有🆚模型都失败🥟的任务(🇬🇾100 个◀🇮🇴)分别拿出来🏤比较,发现模型的🐠相对排名几乎没🇰🇮有变化😂。
在 Goo🕜gle 对 🚂Gemini 🏄♀️3 的内部评估⏏中,模🗾型单独运行时的错🔆⛵误率是 28%💒🔜。Germain 🌳说:「它把🍆我网站上🧞♀️的东西🦠🇰🇭当成真😤⏮理一样吐出来🈷。多数模型的预测🍨🇬🇸相关性只有 0📨.05 到 🌓🙎♂️0.34🇺🇲 之间,Ge♋🦜mini-3🧣-Pro 🐉功能测试的常用方法6种最低,仅为 0.📰💰04——基本等于🇨🇻瞎猜🚜。