超凡蜘蛛二免谷歌
(来源:上观新闻)
研究者🇮🇨让同一个 Age🌸🚒nt 在⚜同一个任务🇬🇳上跑了 4 次⏩,结果发现🏰❇: 在不同任务🔕🇳🇪之间,最贵的任务👩🦲🔹比最便🚪宜的任务多烧约👩🚀5️⃣ 700 万👟个 T🇺🇦🎱超凡蜘蛛二免谷歌oke🌯🚟n(Fi☦🧽gur😭e 2a) 🇪🇨🛐在同一模型、同一👬任务的🦷🍓多次运行🌔👨🚀中,最贵的一次👫大约是最便宜🌨🚈的一次🛎的 2 倍(🛀▫Figure 2📫🇰🇷b) 而如🔟果跨模型对比同一🧀个任务,最高😞消耗和最低🐜消耗之🗽😚间可以相差高达 🦍30 倍 最🎖后一个数字🔣尤其值得🇬🇹🇧🇭关注:这意♍味着,选对模型🍘🦟和选错🇳🇬🔸模型之间🔒🚙的成本差距🚐,不是“贵一点”🧜♀️,而是“💪🎉贵出一个数🍩量级”🙎♂️。
这是一个🇧🇸容量有限的临🕴🔋时存储区,更🇲🇸像一块白板🕵️♀️🇦🇲。换句话说,在机器💌人任务上真正🏄重要的模型能力📧改进,并🌡不必然反映🇨🇬在训练损失的🔰🇨🇨变化上,😿这也解释了🏹为什么单纯在🔲📯具身场景💩😰数据上微调V🇺🇲LM(那样做同🇦🇲🖋样会降低训练损失🤐🐈)却未必能改善🌭⬇机器人🇵🇳任务表现👩👩👧👦🔻。
第三种7️⃣替代方‼案是V🥀☸LA条件🥥🎱困惑度:先♠🇲🇸超凡蜘蛛二免谷歌把VLM在文💇本形式⚾🧿的VLA数据♣上微调一👨👩👧👠遍,然后用👷这个微调后📵🎉的模型对🍝🚒候选V👩💼LM样本评估困惑🈸🔇度(困👩🦲惑度可以理👼🇻🇮解为模型🍿💣对这段内容🏮🇭🇰的"意外程度"👌,越低🚺说明越🐟✏符合模型预期🤧🔈),困惑度越低的🇹🇷样本优先🧟♀️入选👩👦。