蜘蛛入侵

滚动播报 2026-04-25 18:45:40

（来源：上观新闻）

**说到底🏋🕵️‍♀️，这项研究发现😱✔了什么，又意🦕味着什么*📜🚌* 归根☠👩‍🔬结底，这🆘项研究回答了一🛸🇬🇹个在AI训🏒练领域长期存在争😊议的问题👋：大模型推理👩‍⚖️↙能力的训练，应🎟该用什么样🕖的框架来建模？ 👍研究团队🇬🇫↖的答案是：把整😌🏏个推理过程当成"🏑🐥一次性📤🅰行动"👨‍🎓🐒来评价，而不😤是"一系列连续🤕🇳🇦步骤"🧶。

如果这道题答对⏮🚧了，每一💐👨‍💼步都受到同等强🐉🆘度的鼓励；如果答🇦🇿错了，每一📎步都受到同↘🇬🇼等强度的惩罚🇬🇺。此前最好的AI😇🍂系统只能📸🥦完成约21%的🇿🇲🆔评分要求，🕉而顶尖博士生➕能完成✏约41%🈵。Attentio🎯🃏n sink☸🖍。