泛

滚动播报 2026-04-25 17:53:29

（来源：上观新闻）

更重要的是🚓，他们🇹🇯通过大规模实5️⃣验揭示了当前最🥟📤先进的多🐢模态大语言模型在🇧🇹区域级💑🇸🇱质量理解上👩‍🏫🇹🇴的系统性短板—😫↙—即使😞是 Gemi🇬🇺ni 2.5 P🚉泛ro 这🛷样的顶尖商业模型🎻🇶🇦，在这类任务上🌴的表现❇也接近随机猜🧵🤼‍♂️测的水🇹🇰🤑平🐑。

结果相当值得关注🚄：在第一个🇬🇺💅基准Paper🍊🚑Bench上👁️‍🗨️💇‍♂️，AI科学🕶家的平均得分比此🏴前最强的AI基线⏩系统高出🐺🥚10.54分🐥🇭🇰；在第二个基准♋🔸MLE-🗽Bench Li🍳te上，它以🕚📀81.82%🤫的"获奖率"超🚠越了所🤵有有记录的对比系😒☢统，其中包括👈⚰多个已公⛎开发布的知名❤🔤商业和研究机🗡构系统🇬🇶🇹🇯。