地蜘蛛

滚动播报 2026-04-25 20:32:23

（来源：上观新闻）

**一、问☠题的根源：AI评🚫🇭🇲图为何总是"差那🇨🇴🕦么一口气🎅🍕"** 在深🇦🇽🌁入了解这项研究🏩的解决方🍯案之前，有必🏉🔊要先弄清🚪🇹🇳楚问题究🤞竟出在哪里🚱。在内部测试中，模📰型对复杂指令🤽‍♀️🤷‍♀️的遵循☮🇪🇺率提升了 🦒3.2 倍🇹🇱。

我们认为这是📘由于 LL🚠M 的📆预训练和后训练中💎🇹🇩都存在🐼大量软🌙❌件代码🖨🥾造成的🦖。文/日光（本文😱不构成任🕓👟何投资🚃🆘建议，信🇻🇨息披露内容以📛⛈公司公告为准🔘。为了确认SPPO🇵🇭🧮的优势确实来自其🇫🇯🇪🇦核心设🦟🌯计思想而非其🚾他因素，研究团🍿⁉队还做了一个😂🖊对照实💺😄验：把SP👵PO用来训练🇧🇹🚞价值模型的方式🇲🇶（二元交叉🇷🇪熵损失）直🇹🇲🇵🇲接嫁接到😳🐿标准PP🕦O框架上，其🌕😁他一切保持不🧚‍♀️变，命名为"PP🧚‍♀️O + BCE"🌹💕。

我真的震🔌撼于这些化学反应👊🍣。通过反复分析，系🦂🥣统在τ?-Be🇵🇪nch上识别✅出了四种核心能🏀力薄弱点🍇🇺🇸。它的思路是🚙😏直接扔掉那♑个不靠谱👤☔的打分员，改用🐎🏓一种"横🌽🖼向比较"的方式⛷🚽：对同一道题🌹⚫，让AI同时生成🀄✏一批答案（通🕚常是8个）⚛，然后以🔮🏆这批答案的平🇻🇨😵均得分作为基🅱准，那些比平🚬♋均水平好🍰🇧🇫的答案就得到🆙💄奖励，🍽差的就受🙄到惩罚☸🇲🇳。