新浪财经

蜘蛛识别扫一扫

滚动播报 2026-04-25 20:24:26

(来源:上观新闻)

PANDA 展现🛩🙍出了最小的性能📋🌋下降幅度,而👨‍🌾🌛部分商业大模⛹️‍♀️型在 Hard🏣 级别🇫🇰3️⃣的严重程🐐度分类🕗⁉任务上甚👷至下滑到了低🇭🇳于随机猜测🚊水平的表👨‍✈️现——🎗这说明在面🆒对复杂混🐜合失真场景时🥑🏒,这些模😪🚀型完全"迷失方🇲🇭向",只⛅能靠"👩‍⚖️惯性"输出一些听💐📗起来像样但实际上🙇🗽随机的💋答案🏵🇮🇩。

这导致了“验证🌋”成本👔🦗居高不下,通常👨‍❤️‍👨估计占总支出的✖👨‍❤️‍💋‍👨50%以上🍒。工厂里的机械🤽‍♂️臂可以在固定🍫位置重🤢🤗复抓取🏹🇬🇧一万次,但♎🇧🇮家庭里🈸的一万个动作,🧗‍♂️🦄每个可能只🇬🇵做一次,每次🎞🔳的环境条件都不🥟一样🖤。

这种方式不🇹🇫需要事先标注"正🐒🏯确答案长什么样"📅,只需要能判🌼🚬断"答案🇧🇾🍘是好是坏",🇲🇵因此非常适🥍🕉合复杂的多步👩‍🦳骤任务场景🚴👨‍👨‍👧‍👧。只有一小撮人🖼🏷认为,这类题🇼🇫🧶材适合AI🚁😤创作🇹🇻。Claude 🌿🧹Code 前阵🕎🎡子推的 Agen🔒t Teams🥴📝 也是💱🐁类似的🤥🤟思路🎳。