泛
(来源:上观新闻)
研究发现,🌫🐺在高成本运行中,💮约 50% 的🎏🇺🇬文件查看和文件修🇷🇪改操作是重复的—🎩—也就是说,A🇸🇯👼gent 🇨🇿在反复读💁同一个文件、反复🇩🇬🤧改同一行代码,🌱像一个人⏺🇰🇪在房间🔇⚗里转圈,越转🇳🇷越晕,越🇭🇰晕越转👨👦♑。但 Agent ⚗🇸🇦任务完全打破了🇾🇪这一假设🐝🍸——一🍤个的任务可能🔧因为 3️⃣🗞Agen📺🌚t 陷入循环😋💿而烧掉巨量 ⚪🏆Token🦵🇺🇳泛。
” “未来农🥫业的典🦟🍞型场景,就是👘拖拉机在📬田间自主感知土壤🏦😨信息、自主决策🏁⬜、自动执行作业🍶🇦🇸。在Calv🎾👩❤️💋👩in上,中🉑🧡间训练后的1.9️⃣1B模型💍以3.⏳714🖲的平均得🐏🖋分超越了Ope💊nVLA(⛽👣2.548)和π🍥🕔泛0(3.5📦09),与1🔽.7B的K🎬osMos-2(💨🙎3.096👸)、2.9B的P🇲🇰aligem♟️⚗ma-1(3.🦎506💕)、3.0B🈁的Pa🔤🇨🇫ligemma🍗🕓-2(3.🤕🧽406)形成显☹⭕著优势🐂,与2.1⚗B的Qwen⏏🇦🇮3VL-2B(在🗃🕴全量训练数据下↘🐹达到4.1🔫42)的差🇱🇰🍣距也大幅缩🇸🇮🤣小🐂。
但对一个反复做知🛍🎼识型决策🦝🤹♂️的 AI⛪🇰🇮 来说,验证的成☑本很低💻,盲目🇬🇳自信反而危险🤹♀️。AI 闹:P 🍜🅰比 B 更有🐸付费意愿🔨? 刘耕:不只🤐是意愿,P⭕👠 的产出质量🍵也会比🌝 B 的平均值要🌒高🖱🈺。我问刘耕,🥡🇹🇳美学给了你什么?📑🇧🇴 刘耕说🇬🇲™,美学提供了无😵数故事原型🇲🇹。