泛目录
(来源:上观新闻)
第一种替代方⏰案是随机👩🦲选择:从候选数据🍮池里随机抽取🐇🚾相同数量的样本🍤做中间📑🇧🇸训练,👨👩👧👧📞不做任👨❤️💋👨⛱何基于内容的筛选😾🍶。但它不会天然长🦗🇸🇴出一个社区🌴☹。这验证了📠🙅一个直觉:🏟🍳大多数VL👓🇵🇹M训练数据的🕗🦍"口味",和机器🥃🐛人任务需要🚹🌥的"口味",根本🦓🔌不是一回事🥐🇹🇴。调价后,GLM-➰5.1在Codi😚ng场景🌄的缓存命中🧘♂️🍐Token价格已🛁👨🍳接近Anth🕦🚨rop🔏🚟ic旗🇵🇼🍳下Claude🥝 Sonne💘t 4.6水平🇧🇷🐇。然而,现实📯中存在一个尴尬🇹🇿📗的裂缝:负🌫🚣♀️责打基础的"➿➡通用大脑"是用📚🥾网络上大量图🇨🇳🍯片说明、问🇨🇾➕答对话、文档理解🚈等内容🗞👩🎨训练出来的,而机💆♂️器人实际要做的事🤑🧙♀️——拿👻起杯子、🗾🇰🇲移动积木、操😷🔋作机械臂——🆕所需要的🖌那种理🇬🇱解方式,跟"看🌟图说话"或者☔"回答问题"完😇全不是一🇿🇲🐗个路数🈲🚠。
以1.1🚰B参数量的In📸ternVL🇹🇿👨👩👧👦泛目录3.5-1B🇿🇼💰为基础做中间训练🤷♂️后,该模型在🔼☔Calvin上的🇩🇿平均完成任务长🏳👷度从3.173提🧗♀️升到3.🍈714,🇸🇪在Simpl🇻🇦erEnv上🌋⏫的成功率从3🏏6.5%提升🕠到56👩👩👧🚤.3%,在LIB🥿ERO👀上的成功率从3🍟9.0%🇧🇪🧢提升到54.2%🥖。发现三:🐍模型之间“能效📬🦶比”天差地别—🍯—GPT-5😝🚮 最省,有的🇪🇪模型多🦈烧 150 万 🇱🇾Token 论👨⚖️文在业🌻界标准的🚽📎 SWE-b🇳🇿ench🐭 Ve🔯🤸♂️rified(5🍌📷00 👕个真实 🎡GitHub🐾👩🔧 Issue)上🇹🇷,测试了 8 个🍜前沿大🌃🔳模型的 A🚡gent 🈹表现🍺。