新浪财经

scm

滚动播报 2026-04-25 19:52:31

(来源:上观新闻)

更重要🔚的是,🇳🇬🇰🇾他们通⚾💖过大规模实验揭示🍛了当前最先进🙌🤗的多模态大语🥖言模型在区域🌌🈯级质量理解上的系🚠🎡统性短板——即使👳是 Gem↖💺ini 🦄↔2.5 Pro 😂这样的🦗🧂顶尖商业模型,🙃在这类任务🕹🇮🇳上的表现也🗺🎂接近随机猜测的🧟‍♂️📥水平🇸🇨。

我们将♌🇳🇱回顾最终☝🥁VerCo⛺👵re的关键特性🥚🇦🇬。他们随机抽取了2🇷🇺🐚00道题目,让A🦹‍♀️I多次尝试每😆🇲🇷道题,用实际答🛒🖊对率作为"真实难🇰🇼⚛scm度"的🤫衡量标准ℹ👳‍♀️,再与价🧓值模型的预测值🍮做对比👮🔬。

具体来说,🇦🇿🍰失真图处🤞😛理的是一对图像—2️⃣—一张叫做"锚图✔🇦🇮"(anc🌁🚬hor,可以理解🐃为参照图),另一⚖🚀张叫做"目标🧧⛪图"(📃👩‍🎓targ⚽🧹et,即被👨‍✈️比较的图)🔉。Verkor🍹.io团队😡表示,尽管有💂🌕所改进,但🔉LLM(逻辑模🌻🍴型)仍然缺☑🧕乏人类所拥有的直🚣‍♀️觉🖲🇦🇬。