网络书源

滚动播报 2026-04-25 20:35:12

（来源：上观新闻）

两款芯片均🇲🇩计划于2👏026年晚🖨些时候正🍼式对外🥺供应🥰🇪🇹。它的思路是直接🇬🇧扔掉那个🔅不靠谱🙈😁的打分员，改用🥭🎓一种"横向比较"🛠🇨🇬的方式：对同一道🍃题，让A🚢I同时🍾生成一批答案（🇦🇸🇧🇪通常是8个）🐱，然后以这批答案🇵🇾的平均得分🈳🚰作为基准，那些🕘比平均🇬🇳水平好的答📫案就得到🇦🇫🍗奖励，差的就🛢受到惩📙罚🥐。

研究人员发🎱🦹‍♂️现，让🧱📬AI学会解数学题💁、做逻辑推理🔄，需要🚶🍨用到一🔱种叫做"👝🧣强化学习😇🇱🇹"的训❓练方法——本🇫🇷🎊质上就是让AI不😥断尝试🐗🕰、不断🏕根据反馈调整🚊🅰。这种方式不🚴需要事先标注"🛂正确答案长💻什么样"，🆔只需要✖能判断"答🚭案是好是坏"，因🛏🇸🇪此非常适合复杂🇲🇵的多步骤任务👒场景🇲🇶。这就是这篇论文要👨‍🎓解决的问题所在—🥜—不是让AI写一🇲🇴段代码，也不是让🏥AI回💳答一道题🔸🛀，而是让AI像一🎑名真正的科研工程🇧🇫⛔师那样，端🇧🇳到端地完成整个⚰🔛机器学🐄习研究🇻🇬🙁的复现与优🌅👩‍👩‍👧‍👧化流程🧐🔊。