新浪财经

滚动播报 2026-04-25 17:53:29

(来源:上观新闻)

更重要的是🚓,他们🇹🇯通过大规模实5️⃣验揭示了当前最🥟📤先进的多🐢模态大语言模型在🇧🇹区域级💑🇸🇱质量理解上👩‍🏫🇹🇴的系统性短板—😫↙—即使😞是 Gemi🇬🇺ni 2.5 P🚉泛ro 这🛷样的顶尖商业模型🎻🇶🇦,在这类任务上🌴的表现❇也接近随机猜🧵🤼‍♂️测的水🇹🇰🤑平🐑。

结果相当值得关注🚄:在第一个🇬🇺💅基准Paper🍊🚑Bench上👁️‍🗨️💇‍♂️,AI科学🕶家的平均得分比此🏴前最强的AI基线⏩系统高出🐺🥚10.54分🐥🇭🇰;在第二个基准♋🔸MLE-🗽Bench Li🍳te上,它以🕚📀81.82%🤫的"获奖率"超🚠越了所🤵有有记录的对比系😒☢统,其中包括👈⚰多个已公⛎开发布的知名❤🔤商业和研究机🗡构系统🇬🇶🇹🇯。