新浪财经

地蜘蛛

滚动播报 2026-04-25 20:32:23

(来源:上观新闻)

**一、问☠题的根源:AI评🚫🇭🇲图为何总是"差那🇨🇴🕦么一口气🎅🍕"** 在深🇦🇽🌁入了解这项研究🏩的解决方🍯案之前,有必🏉🔊要先弄清🚪🇹🇳楚问题究🤞竟出在哪里🚱。在内部测试中,模📰型对复杂指令🤽‍♀️🤷‍♀️的遵循☮🇪🇺率提升了 🦒3.2 倍🇹🇱。

我们认为这是📘由于 LL🚠M 的📆预训练和后训练中💎🇹🇩都存在🐼大量软🌙❌件代码🖨🥾造成的🦖。文/日光 (本文😱不构成任🕓👟何投资🚃🆘建议,信🇻🇨息披露内容以📛⛈公司公告为准🔘。为了确认SPPO🇵🇭🧮的优势确实来自其🇫🇯🇪🇦核心设🦟🌯计思想而非其🚾他因素,研究团🍿⁉队还做了一个😂🖊对照实💺😄验:把SP👵PO用来训练🇧🇹🚞价值模型的方式🇲🇶(二元交叉🇷🇪熵损失)直🇹🇲🇵🇲接嫁接到😳🐿标准PP🕦O框架上,其🌕😁他一切保持不🧚‍♀️变,命名为"PP🧚‍♀️O + BCE"🌹💕。

我真的震🔌撼于这些化学反应👊🍣。通过反复分析,系🦂🥣统在τ?-Be🇵🇪nch上识别✅出了四种核心能🏀力薄弱点🍇🇺🇸。它的思路是🚙😏直接扔掉那♑个不靠谱👤☔的打分员,改用🐎🏓一种"横🌽🖼向比较"的方式⛷🚽:对同一道题🌹⚫,让AI同时生成🀄✏一批答案(通🕚常是8个)⚛,然后以🔮🏆这批答案的平🇻🇨😵均得分作为基🅱准,那些比平🚬♋均水平好🍰🇧🇫的答案就得到🆙💄奖励,🍽差的就受🙄到惩罚☸🇲🇳。