泛

滚动播报 2026-04-25 21:55:06

（来源：上观新闻）

它带来了两🛹🇺🇦个直接后🇹🇴🇵🇹果：对于◽答对的推理链，打😔分员在接🇲🇳近结尾时才给出高🎇分，导致AI的整🌷🇧🇲个推理过程几乎收🇦🇴🍻不到任何有👨‍👧🛫效的激励信号；对🎊🇨🇽于答错的🦸‍♂️推理链，🚓打分员在中间过程9️⃣中也没有给出🕸🌏足够的👛👩‍⚕️惩罚，无法让A💚🧂I知道哪里出了😻💞问题📕🎦。问题来了——⏳学生写了满满两页🐷纸的推🤳😼理过程，最终答📎🅾案错了，但你◼只能说一句"不😸🇧🇴对"🇧🇮🇨🇻。

使用更小尺寸价值⚓💛模型的💹SPPO🎈🚬组合更是拿下了所🇬🇺🇶🇦有测试方😥法中的最高分🤰🙀。两者共同作用，🇦🇫使系统能👩‍⚖️在几十小时内持续🦇🐭有效地推进⏫😜工作🇨🇦。“早期我们用🖌Kimi、字节的✳🔡一些工具💻🤔，国外用Gemi🎼ni、🧙‍♀️🧓Claude、🤨🇪🇺GPT🧮。DC 得出🍟结论，即使分💉支惩罚🇿🇦为 1 个周期的📌😹变体具有更🚫0️⃣长的时序关🇪🇪键路径（涉及额外🔇😿的比较器逻辑🏎㊙），它也能满🇹🇬✉足时钟频率目🇦🇶标🗺🐮。