魔术泛站群
(来源:上观新闻)
此外,🧷它采用层级化编🇸🇪排,由一🇲🇲个轻量的指挥官调🌶度多个专业代理(🖇🦵论文理解、🧑👨👦👦任务规划🔮、代码实现、🥞🥤实验执行),每🚕🧚♂️个代理只负🏕责自己的领域,避🌥🚅免了单一代理承💯担过多任务导〽🧜♂️致的失🇳🇿控问题🚫👭。换句话说,😻📿即使你把答题范✍🇬🇺围画得很🧐清楚,这些🏇🇨🇩魔术泛站群模型依然习惯性地😱🎥"看整体🏴㊗",没有能力做♨到"看局部"👩🎨。更重要的🇬🇵是,他们通过大🌧规模实验🍓揭示了👯🇸🇿当前最先🎶进的多模态大语🇳🇵🎬言模型在🙃⛑区域级质🇱🇹量理解上的系统性🌌👟短板——即使是 🚴Gemin🈴📈i 2.®5 Pro 这样💻的顶尖商业模型,7️⃣👨🏫在这类任务上的表🚜现也接近随机猜测🚶的水平🦶。
AI科学家在使用🇬🇪Gemini-3📝-Flash作🇳🇿为底层👨⚕️🚷语言模型时,😙平均得分达到🏟30.52分,⛰比同条件㊙下最强🍰的基线系统🍥高出9.92分;😯使用GLM-5🛁🤠时,平📅🇵🇭均得分达到🎡🦙33.73分,比📋最强基🕴线高出1⚡🛏1.1💐🧂5分🇹🇱🇬🇭。它的唯😺一任务是,📎在看到🥍🦛一道题之后,🐵预测当前的AI有💫多大概率能📸🚓答对这道题——用🏙一个0👁️🗨️🔁到1之间的数😮字表示🍙。