谷歌登录

滚动播报 2026-05-05 02:22:28

（来源：上观新闻）

这个发现🇩🇪🦹‍♂️至关重💂‍♀️要，它意🍐😯味着：与其抛弃🥨所有VLM数〽🤥据重来，不🛎如在VLM💦那片广阔的数据大🍚陆上，精准地挑选🌓🏄‍♀️出那些与机器人🈹世界更🇧🇿接近的"边🇺🇳🕐境地带"🐥💬样本，用它们来做👛🇫🇲针对性的过渡🇬🇩训练✅🌶。这意味🐈着这些🇨🇨 AI 可以❕接触最🐘高级别的保密🗺数据，用来辅💱助战场🐋决策、情🏮报分析，甚至生成🈹👨‍👨‍👦打击目标清单🦸‍♂️🤲。

研究团队采用了一🦜🍦种名为REI🍑NFORCE的奖🥠🎁励机制来充当↔严厉的裁判👪🛤。研究者让🤜同一个 Age🍀nt 在同🇳🇮⏬一个任务上跑了 🇨🇳🇹🇦4 次🐲，结果😿📁发现：🛡🏄 在不同任务👯🐯之间，最👊✉贵的任务比最便宜🐁⤴的任务多烧约 🎲700 🇮🇸万个 Toke👱n（F💏📇igur👨‍🔧🇬🇺e 2a🛑）在同一模型、🇲🇳🎮同一任务的多次🧖‍♂️运行中，最贵🙃的一次大约是最便🕓⛵宜的一次的🎳 2 倍（💩💝Figure🇺🇿🙅 2b）而如果🛳👽跨模型对🚊比同一个任务，最📟高消耗和最低消耗🧫🧂之间可以相🇱🇮差高达 30 倍🚓 最后一个🇸🇹🔍数字尤🇵🇭其值得关注：💝💚这意味着，选🇸🇬📦对模型和选错模型👨‍👧‍👦之间的🎿成本差距，不是🧷“贵一点”，而是🇸🇽🛅“贵出一个🌒🌨数量级”🍫👽。