seo.

滚动播报 2026-04-25 20:28:06

（来源：上观新闻）

过去，训练一个7😀🍛0亿参数的🎄推理模🇦🇱型需要同时加载👨‍⚕️🧺一个同等大小的🛒打分员，🇸🇴👹内存压🍝力极大；而SP☀PO允许用一个小🍵十倍的模型🅱担任价值预测者，🤷‍♀️🍬让更多研究者↖能够在🐈有限的计算资🚚源下开展🐖实验⛴🌈。

装 Skill、🇵🇱更新 S⛹🌍kill、统一🇩🇿🏪版本这些事情ℹ😩，都可🤠以在群里🇵🇫一次性处理☁完，不🔻用每个人再单🛋🤲独操作🐺。实验结果相🖇🌆当显著：在模拟客🐩服场景的测💼㊗试中，经过👤TRACE训🎀练的AI助手🤯，整体🕉📇通过率从32.🇾🇪9%跃🇲🇨➰升至47🍪🌟.0%，提🦆升了14.1个百🛴分点；在工具🇲🇹👀使用测试中🈁⛰，完美完🤤成任务的次数也🍀🚫增加了🔠7个🗜。