google加速

滚动播报 2026-04-25 16:31:35

（来源：上观新闻）

**六📙📵、不只🤛是纸上谈兵：🇰🇬📱在经典游⛽🇺🇸戏控制🌫任务上的验😎🇲🇺证** 为了排除🕋💂"成功🥵可能只是🛃因为在某🛎🈂个特定♒训练框架下的系⌚统优化"这一🔟👬疑虑，研📸究团队把🕞SPPO移💆‍♂️植到了五💎🇺🇸个经典的强🚾化学习控制任务上🦶🤘：精密版C🚑📡artP👳‍♀️🏴‍☠️ole（控制📓杆子不倒）、Mo💈🏳️‍🌈unta👏🇱🇨inCar🚀（让小车爬上山🌁）、H🌀opper（双足🚶🇬🇮机器人🇵🇳前进）、Luna🇩🇲🕛rLand🧲🇩🇴er（月球🤳🧝‍♀️着陆器着陆）和P🍨end🇦🇨ulum（保持😶✡摆杆直立）🤼‍♂️🇳🇫。

如果这道题🎙📈答对了，每一步都🇪🇪🐻受到同等强⛔➡度的鼓💢励；如果答错了🇺🇳，每一✈步都受🍉👊到同等强度的♿惩罚👵⏮。如果题目太简单🍆🤬，AI每次都能答⚱对，就没有学习👝空间；如果🍾题目太难，AI次💻次都失败，也无法🇸🇽🥶获得正🔤向反馈🍏🇳🇫。

”他们写道🙏。--- 五🦜🇺🇲、四个专家加⬆一个指挥官🎁：AI科研🚘🍯团队的内部分工 👨‍👨‍👦🇦🇷AI科学🇫🇴🚯家并不🌊9️⃣是一个单一的"🇰🇼👑大脑"，而是❇🥠一个由多层次代理🧜‍♀️组成的协作团🇲🇸队🇲🇬。