魔术泛站群

滚动播报 2026-04-25 21:39:07

（来源：上观新闻）

此外，🧷它采用层级化编🇸🇪排，由一🇲🇲个轻量的指挥官调🌶度多个专业代理（🖇🦵论文理解、🧑👨‍👦‍👦任务规划🔮、代码实现、🥞🥤实验执行），每🚕🧚‍♂️个代理只负🏕责自己的领域，避🌥🚅免了单一代理承💯担过多任务导〽🧜‍♂️致的失🇳🇿控问题🚫👭。换句话说，😻📿即使你把答题范✍🇬🇺围画得很🧐清楚，这些🏇🇨🇩魔术泛站群模型依然习惯性地😱🎥"看整体🏴󠁧󠁢󠁳󠁣󠁴󠁿㊗"，没有能力做♨到"看局部"👩‍🎨。更重要的🇬🇵是，他们通过大🌧规模实验🍓揭示了👯🇸🇿当前最先🎶进的多模态大语🇳🇵🎬言模型在🙃⛑区域级质🇱🇹量理解上的系统性🌌👟短板——即使是 🚴Gemin🈴📈i 2.®5 Pro 这样💻的顶尖商业模型，7️⃣👨‍🏫在这类任务上的表🚜现也接近随机猜测🚶的水平🦶。

AI科学家在使用🇬🇪Gemini-3📝-Flash作🇳🇿为底层👨‍⚕️🚷语言模型时，😙平均得分达到🏟30.52分，⛰比同条件㊙下最强🍰的基线系统🍥高出9.92分；😯使用GLM-5🛁🤠时，平📅🇵🇭均得分达到🎡🦙33.73分，比📋最强基🕴线高出1⚡🛏1.1💐🧂5分🇹🇱🇬🇭。它的唯😺一任务是，📎在看到🥍🦛一道题之后，🐵预测当前的AI有💫多大概率能📸🚓答对这道题——用🏙一个0👁️‍🗨️🔁到1之间的数😮字表示🍙。