泛目录

滚动播报 2026-05-05 02:08:48

（来源：上观新闻）

第一种替代方⏰案是随机👩‍🦲选择：从候选数据🍮池里随机抽取🐇🚾相同数量的样本🍤做中间📑🇧🇸训练，👨‍👩‍👧‍👧📞不做任👨‍❤️‍💋‍👨⛱何基于内容的筛选😾🍶。但它不会天然长🦗🇸🇴出一个社区🌴☹。这验证了📠🙅一个直觉：🏟🍳大多数VL👓🇵🇹M训练数据的🕗🦍"口味"，和机器🥃🐛人任务需要🚹🌥的"口味"，根本🦓🔌不是一回事🥐🇹🇴。调价后，GLM-➰5.1在Codi😚ng场景🌄的缓存命中🧘‍♂️🍐Token价格已🛁👨‍🍳接近Anth🕦🚨rop🔏🚟ic旗🇵🇼🍳下Claude🥝 Sonne💘t 4.6水平🇧🇷🐇。然而，现实📯中存在一个尴尬🇹🇿📗的裂缝：负🌫🚣‍♀️责打基础的"➿➡通用大脑"是用📚🥾网络上大量图🇨🇳🍯片说明、问🇨🇾➕答对话、文档理解🚈等内容🗞👩‍🎨训练出来的，而机💆‍♂️器人实际要做的事🤑🧙‍♀️——拿👻起杯子、🗾🇰🇲移动积木、操😷🔋作机械臂——🆕所需要的🖌那种理🇬🇱解方式，跟"看🌟图说话"或者☔"回答问题"完😇全不是一🇿🇲🐗个路数🈲🚠。

以1.1🚰B参数量的In📸ternVL🇹🇿👨‍👩‍👧‍👦泛目录3.5-1B🇿🇼💰为基础做中间训练🤷‍♂️后，该模型在🔼☔Calvin上的🇩🇿平均完成任务长🏳👷度从3.173提🧗‍♀️升到3.🍈714，🇸🇪在Simpl🇻🇦erEnv上🌋⏫的成功率从3🏏6.5%提升🕠到56👩‍👩‍👧🚤.3%，在LIB🥿ERO👀上的成功率从3🍟9.0%🇧🇪🧢提升到54.2%🥖。发现三：🐍模型之间“能效📬🦶比”天差地别—🍯—GPT-5😝🚮 最省，有的🇪🇪模型多🦈烧 150 万 🇱🇾Token 论👨‍⚖️文在业🌻界标准的🚽📎 SWE-b🇳🇿ench🐭 Ve🔯🤸‍♂️rified（5🍌📷00 👕个真实 🎡GitHub🐾👩‍🔧 Issue）上🇹🇷，测试了 8 个🍜前沿大🌃🔳模型的 A🚡gent 🈹表现🍺。