目录树

滚动播报 2026-04-25 19:32:00

（来源：上观新闻）

一个很长的👩‍🎤age🛌nt会💵🐒话，一份反复回💨🍝读的技术文档，一🇯🇲🇵🇪次跨多仓库的重🍼👳‍♀️构，这些🤠过去要切窗口、🇪🇬💠要加ret↗🙅rieval🇵🇾、要精心管理上👨‍🦲💜下文的场景🥧🎨，在V4这里变成👨‍💼了「全塞📛进去看看再说」📠。它带来了两个直🇲🇰🍾接后果：对🚈于答对的推理链🚷，打分员在🌑📦接近结尾☃时才给出高👥分，导🈯致AI的整🕊🇦🇴个推理🤭🛌目录树过程几乎🥩收不到🇨🇮任何有🧣效的激励🥈信号；对🍂♈于答错的🤫🌔推理链，打👂💣分员在中间过🐾👹程中也没有🌱☠给出足够的🐷🍨惩罚，无法让A🌈I知道哪里出了问ℹ题🛫。

训练结束后，每种🦢🚽能力都对🍤🇸🇰应一个独🗽🌻立的技🐧🕋能插件👼。具体而言，标准🇦🇩🀄PPO把AI解题🤕🎣看作一个漫✖长的"🇻🇪🔘连续决🚀👋策过程"——就像🇬🇱🇬🇸下棋，每🏬🤓走一步都有意义🔻，每一步都⌚可能影响最终胜负🔜⏬。道理很简单🇰🇷💷，单个 🦌Agent🔀😓 自己能力🕐都不够，🚮把一堆能力不行的🚕 Agen🏀🤰t 凑🧙‍♂️🕰到一起做事✉⏮，等于一屋🏦子干不了活的🚸🐺人开会🕍👨目录树，只会更乱🎺🤦‍♀️。

--- 二📳📬、让A🦞📍I完成科研的四📱道关卡：🥊为什么这件事比🔟看起来难得多？🇱🇾 要理解AI🏴󠁧󠁢󠁳󠁣󠁴󠁿科学家的设计思路😈🇹🇰，首先得明白这🇦🇸🚷项任务🧺到底难在🇲🇳哪里🎆。对每个q🚾uery t🐡🛢oken🇷🇸🇸🇯，用一个轻量🧨🛂的in👨‍👨‍👦‍👦dex⏹🛹er计🇧🇸算它和⚫每个压缩💩👩‍🔬KV块的相关性分👪数👨。没有人知🕖道，这🎦张牌桌还能🧤💷坐多久——📡但所有人都清💌🙉目录树楚，牌局，已经☢🍟变了🖊。Atte🐹ntion🍚✅ sink🕺。在Luna▶🤷‍♂️rLander5️⃣🚸上，SPPO保🇨🇽持了稳定🌍⬇上升的学习曲线✈，而标准PPO则👙出现了明显的波🧨动和倒退🔊🇶🇦。