目录树
(来源:上观新闻)
一个很长的👩🎤age🛌nt会💵🐒话,一份反复回💨🍝读的技术文档,一🇯🇲🇵🇪次跨多仓库的重🍼👳♀️构,这些🤠过去要切窗口、🇪🇬💠要加ret↗🙅rieval🇵🇾、要精心管理上👨🦲💜下文的场景🥧🎨,在V4这里变成👨💼了「全塞📛进去看看再说」📠。它带来了两个直🇲🇰🍾接后果:对🚈于答对的推理链🚷,打分员在🌑📦接近结尾☃时才给出高👥分,导🈯致AI的整🕊🇦🇴个推理🤭🛌目录树过程几乎🥩收不到🇨🇮任何有🧣效的激励🥈信号;对🍂♈于答错的🤫🌔推理链,打👂💣分员在中间过🐾👹程中也没有🌱☠给出足够的🐷🍨惩罚,无法让A🌈I知道哪里出了问ℹ题🛫。
训练结束后,每种🦢🚽能力都对🍤🇸🇰应一个独🗽🌻立的技🐧🕋能插件👼。具体而言,标准🇦🇩🀄PPO把AI解题🤕🎣看作一个漫✖长的"🇻🇪🔘连续决🚀👋策过程"——就像🇬🇱🇬🇸下棋,每🏬🤓走一步都有意义🔻,每一步都⌚可能影响最终胜负🔜⏬。道理很简单🇰🇷💷,单个 🦌Agent🔀😓 自己能力🕐都不够,🚮把一堆能力不行的🚕 Agen🏀🤰t 凑🧙♂️🕰到一起做事✉⏮,等于一屋🏦子干不了活的🚸🐺人开会🕍👨目录树,只会更乱🎺🤦♀️。
--- 二📳📬、让A🦞📍I完成科研的四📱道关卡:🥊为什么这件事比🔟看起来难得多?🇱🇾 要理解AI🏴科学家的设计思路😈🇹🇰,首先得明白这🇦🇸🚷项任务🧺到底难在🇲🇳哪里🎆。对每个q🚾uery t🐡🛢oken🇷🇸🇸🇯,用一个轻量🧨🛂的in👨👨👦👦dex⏹🛹er计🇧🇸算它和⚫每个压缩💩👩🔬KV块的相关性分👪数👨。没有人知🕖道,这🎦张牌桌还能🧤💷坐多久——📡但所有人都清💌🙉目录树楚,牌局,已经☢🍟变了🖊。Atte🐹ntion🍚✅ sink🕺。在Luna▶🤷♂️rLander5️⃣🚸上,SPPO保🇨🇽持了稳定🌍⬇上升的学习曲线✈,而标准PPO则👙出现了明显的波🧨动和倒退🔊🇶🇦。