泛站群

滚动播报 2026-04-25 18:25:06

（来源：上观新闻）

**说到底，这🕎项研究👶发现了什么，又☀意味着什么💮🎨** 🚷⛴归根结底，这🐯🧞‍♂️项研究回答了一个💃在AI训练领域长🖍🔱期存在争议🧒⚗的问题：大模型🐜🌏推理能力的🏨🇭🇲训练，应该用什么🗼样的框架来建模🇲🇭🈂？研究团📣队的答案是：把整🏮个推理过程当成👺🦛"一次🚭性行动"🅱来评价😢，而不是🏃‍♀️👚泛站群"一系🔵🧟‍♂️列连续⛅🥩步骤"🇰🇵🆑。在训练👻超参数方面，🏑😳研究团队对➗🦚损失函数中四项📮任务的权重系🏙🕐数进行了Ⓜ🇯🇵网格搜索，最终👷确定的🕺🎸配置为：区📗域比较关系损失🇦🇷权重0🔍.1、失真👩‍🏫👂类型识🐔别损失权重1.0🎁🇬🇾、严重程度分类👨‍💼损失权重0.🦢🌙1、质量评🏬‼分回归💔损失权重🌳🚨1.0🧡🇻🇮。

可以说，一时😳间信息多的有📨些超载，但👨‍🎤3️⃣多归多，主线就👩‍💻🇸🇭两条🚻。但幕后主创🇸🇧团队很快😔🇨🇱出面澄清，“30🗃🙌00元仅💌为算力成本、团队🙎‍♂️实为20人、作♍品只是两支🐏💈短片”🧛‍♀️。图1展示了一🍡🔑个具体案例：⏹👙在"侮辱性言💟论检测"这一任🕣🤡务上，A🇦🇶🎦I科学🔬家在23小时内自🍫主完成了💙74轮🔸实验，将模型🇱🇻的验证集AUC🤬（一种衡量分类💱模型好🌲坏的指⏱标，越🇰🇲🇧🇼接近1越好）👨‍👨‍👧‍👧🚵‍♀️从0.903提🐳🧰升到了0.🙇🧙‍♀️982，🧜‍♀️期间经历了1🇧🇫8次"找🕜⚒到更好方案并保🇳🇦留"的👅🍋关键节点，同📬🦀时也经历了🗯🎶大量"尝♠🧱试无效果🏅而丢弃🕰"的探💎👨‍⚕️索过程，🌳🤒全程无需人🐪🇳🇨工干预👹。