SAP是什么

滚动播报 2026-04-25 16:30:39

（来源：上观新闻）

研究人员🇲🇦通常有🇩🇲👱两种选择：要么给🇿🇼AI看大量来自🔰各种场景的训练🚢数据，🙄🦜希望它能从中"悟🇬🇮🇸🇳"出各种技🥯能；要么直接在目🍷标场景🚱🈴里训练AI，让它🇲🇹从最终的🇧🇲🦂成功或失败中学习👵。过去，训练一个💜🙋‍♂️70亿参数的推理🇰🇭❗模型需要同时🚷加载一个同等🎦🐚大小的打😃分员，内存压💀力极大；而SP🍣PO允👨‍🎓许用一个小🎳十倍的模型担任🤢价值预测者，让👽👨‍⚕️更多研究者能够💆‍♂️🤠在有限的计🔇🎣算资源下开展实🔝验💂。

实验数据显示👩‍👧，SPP💌⏩O大约在2😗🍬2小时🚵内就能达到约58🇸🇳分的峰值水平，🚧🕐而GR📗PO等方法需👨‍👩‍👧要明显更长的时🗻间才能达🎉到可比水平🙁💧，整体速度差🇭🇹距约为🇲🇻5.9倍😲。现实任务里最🗼👕值得提的是内部R🥢&D代码be🐵nchm🆘ark，V4-P🏓ro-Ma🆗💪x 67%，接近⛈Clau🧨de Op🦊us 👨‍🔬4.5的🚩🎌70%🏊‍♀️🦷。