泛纳设计(深圳)有限公司

滚动播报 2026-04-25 19:57:06

（来源：上观新闻）

研究团⚖队将挑👰战归纳为四个👩‍👦🇸🇬层面，每一🆙🥭个单独拿🌒📒出来都不简单🧻，而它们叠🐻加在一起，就👨‍🏭构成了一道极为⛰复杂的难题🇱🇹。这个差距越大🦹‍♀️，说明这种🗻能力越能区🎇分成功和失败🇨🇺🏗，也就越值得重☘🐹点训练🛤😴。Q3：标🗨🥃准PPO🕘🏔在推理🎶7️⃣训练中为什么会💡🍃失败，具体是🇲🇱🚠哪里出🇹🇿了问题？🌘 A：标准P☦🥎PO失败🇸🇾的核心🆗原因是"尾部🧻效应"—4️⃣📶—其内置的打🍶🚑分员（🍆Critic）💲👜无法在几千🧨步的推理过程中有🎹🈶效分配奖惩信号🔋⚖，而是一🚇直等到推理👨‍🎤接近结😌👩‍👩‍👧‍👧尾才根据最后几📓😰行文字猜🎓测结果，导致⚫👩‍👩‍👦整个中间推理过⚜程既收不到有🗞😋效激励，也🥡收不到有效惩罚👨‍👨‍👧‍👦🇰🇿。

于是，他们又🇦🇫🇬🇫讨论用国内的镜🧤像站，最后🇫🇴解决了问🌜题🥧。保持独立适配器🌹🇩🇪，在使用📥时根据任务类型😫动态选择对应的适🥍✋配器，能让🏙每种能力都维🍨持最佳状态，👩‍👩‍👧‍👧🕜整体通过率比最强🐂合并方2️⃣🇨🇾案高出6.1个百◽🔻分点🛹🌦。在几个对比🐝方法中🇧🇾，直接在目标♏🛫环境里🇨🇿用强化学习训练🇮🇱🌊的模型（G🇲🇦🔤RPO on 🎎😭Targ💏🇸🇱et）能达🔼🛄到37.🤷‍♂️8%，一种使用通⚾🇰🇲用合成环境训🧐练的方法（A💤🇱🇷WM）能达到🇨🇮38.4%，而🤰一种通过优化系统🇱🇨提示词来植入能力💆描述的方法（🍠GEPA）能达🐕↔到39.6🕷🕳%🧗‍♂️。