目录树

滚动播报 2026-04-25 17:11:05

（来源：上观新闻）

V4-Flash🍛-Max只激🙉🇾🇪活13B参🇸🇷⌚目录树数，推理任🆙务上能打👨‍💼🐪平GP🇳🇵🚆T-5.2👒🦌和Gemi🌧🤝ni-3.0-🔯Pro🥂🕺，代码和数学甚🦏🐩至超过K🐉2.6-Th🥕inking🎛。

这个关键缺陷👩‍🔬🥓导致训练变得低效🅰🇧🇯。研究团↙队将AI科学家🤱🙎‍♂️与非层级化的简🇸🇭👳‍♀️单代理（在Pa🚸😓perB👶🥚ench⛲上对应B🕔🚧asicA☁gent，在🇬🇫🦏MLE-B💵🤣ench👂 Lite上🇲🇭👎目录树对应AIDE）进🏌️‍♀️⚔行比较，发现😬🇸🇻即使是💶🌠去掉文👏件即通道机✔🐃制的"🧟‍♀️残缺版"AI💾科学家，在⚽Pap❗erBenc📳目录树h上仍比Basi📶cAgent📥🕖高出4.74分👿，在ML😳E-Benc⚜目录树h L🦵ite上的"高于📅🍗中位数率"和任👦意奖牌率🥡🐫也分别高出22🈯🇪🇦.73🇧🇪和9.09个百分👵🇬🇪点🚮。

而 GPT-Im🇰🇵🇺🇿age-2 ☺🇸🇳却带来📇🐽了一个根本性🦡的转变：让 ⚒👐AI 在画图之🕸🇵🇬前，先⏳像人类一样“思⬛考”🚍。一个可能的🕘流程变🔻🥐化是将验证工作🎼📵前置，以便为 🐕💲DC 提供某种集🕗🦹‍♂️成测试🇧🇪🐲，以指导其 🔢RTL 实现📫。