新站做泛目录

滚动播报 2026-04-25 16:04:24

（来源：上观新闻）

测试结果显🦠示，在难度最高的🚵🇱🇦Hopp🌡😾er和Mo🌒untai🎖🈹nCar🐳任务上，标🌀准PP💞O几乎🇭🇺👌完全失败，成功🏉率停在接近📐🥈零的水平；而SP👨‍🎤🎃PO成功解🧧🍨决了这两个任务👐🚉，成功率稳步攀🚴升🗓。比如，一道题预估👩🎩答对率为0.3📨（很难🕓🔥），但AI🌘答对了，🥦那么优势信号就🔪🕥是1-👨‍👩‍👧0.3=🐆0.7，说明这次💣表现远超预期👮‍♀️，需要🤚⛷大力强😏化这个推理🧗‍♀️策略📋。

它的思路🥿是直接扔🤑掉那个不靠🈂谱的打分员，🐮🎓改用一☂种"横🤷‍♂️向比较"的方式：🔟对同一道题，让A🇵🇬I同时生成一批🆖答案（⏩🗽通常是8个），🐾然后以这批答案🐓😃的平均得分作为基🇧🇶准，那些😑比平均水平🌷好的答案就🔛🥎得到奖励，差🇺🇿的就受到惩🇬🇺🔟罚😫👩‍🦰。

于是，很多人最后🙇‍♀️🔈得到的不是🚵‍♀️👨‍👩‍👧‍👦效率提升👩‍⚖️🇧🇶，而是💊🇰🇪更高的使用成本↪。论文表示，训练中🤩👨‍🚀间出过一次严重的☸loss spi📶🇦🇪ke，Dee🇹🇬◾pSee🔟k摸到两个土办🥮🚧法，Ant🇬🇸🇬🇦icipa📴🇸🇻tor😞y Ro🕉uting和🍲🏊SwiG🐫LU C👨‍👩‍👧‍👧🥼lampi✨ng✊🚬。