泛
(来源:上观新闻)
闭源大🦒💽厂追求⛩🥾的是能力上🚦☠限,谁家的模型能🥦🔰在HLE上拿更⛲🥺高分😆。当这样一种“在场👨⚕️的陪伴”越🧹来越普🥥😬遍,我们的生💿活方式,就会迎🏝🇺🇸来一场真正的范📛🌆式转移🇬🇦🇰🇾。ToolSan😁dBox上🉐🐴也呈现了🚨相同的🎈👭规律:TR❗ACE的曲🧂🐲线稳健上升,最终📔达到0.552,🚻🏁而GRPO🇪🇨和GEP🇦🇺A则分别停留在😣0.51📰🏄9和0.52👩👧🇲🇱0🎐。
论文通过可视🙆♂️化实验直接观察到🖌,正确☘🇵🇱和错误推理链的🔸价值曲线↕🔆泛在中间阶段几乎👪完全重叠,只🇲🇫在结尾附近才分🛸🌕开,证实🧹🤚了这一失效机📼泛制🤚🎭。行业普遍在用“糖🇧🇻🇻🇮水数据”训练💠模型,然后奇怪🌫👩👦为什么一到真实🥇👨👧👧环境就失效⛹️♀️。
更关键的🏗问题在于💩👳,这些模型🏴通过"监督🇦🇮微调"(可以理解🦡为"刷题🥅训练")的🇫🇯方式习得了固定的🏢回答模板,🇮🇷😧就像一个学📶🤹♀️生死记硬背了几🇵🇱👚套答题👨🍳公式,一旦🙀👾遇到没见过的题型🇸🇳就不知所🖲🇲🇬措🚸。