网络书源
(来源:上观新闻)
两款芯片均🇲🇩计划于2👏026年晚🖨些时候正🍼式对外🥺供应🥰🇪🇹。它的思路是直接🇬🇧扔掉那个🔅不靠谱🙈😁的打分员,改用🥭🎓一种"横向比较"🛠🇨🇬的方式:对同一道🍃题,让A🚢I同时🍾生成一批答案(🇦🇸🇧🇪通常是8个)🐱,然后以这批答案🇵🇾的平均得分🈳🚰作为基准,那些🕘比平均🇬🇳水平好的答📫案就得到🇦🇫🍗奖励,差的就🛢受到惩📙罚🥐。
研究人员发🎱🦹♂️现,让🧱📬AI学会解数学题💁、做逻辑推理🔄,需要🚶🍨用到一🔱种叫做"👝🧣强化学习😇🇱🇹"的训❓练方法——本🇫🇷🎊质上就是让AI不😥断尝试🐗🕰、不断🏕根据反馈调整🚊🅰。这种方式不🚴需要事先标注"🛂正确答案长💻什么样",🆔只需要✖能判断"答🚭案是好是坏",因🛏🇸🇪此非常适合复杂🇲🇵的多步骤任务👒场景🇲🇶。这就是这篇论文要👨🎓解决的问题所在—🥜—不是让AI写一🇲🇴段代码,也不是让🏥AI回💳答一道题🔸🛀,而是让AI像一🎑名真正的科研工程🇧🇫⛔师那样,端🇧🇳到端地完成整个⚰🔛机器学🐄习研究🇻🇬🙁的复现与优🌅👩👩👧👧化流程🧐🔊。