scm

滚动播报 2026-04-25 19:52:31

（来源：上观新闻）

更重要🔚的是，🇳🇬🇰🇾他们通⚾💖过大规模实验揭示🍛了当前最先进🙌🤗的多模态大语🥖言模型在区域🌌🈯级质量理解上的系🚠🎡统性短板——即使👳是 Gem↖💺ini 🦄↔2.5 Pro 😂这样的🦗🧂顶尖商业模型，🙃在这类任务🕹🇮🇳上的表现也🗺🎂接近随机猜测的🧟‍♂️📥水平🇸🇨。

我们将♌🇳🇱回顾最终☝🥁VerCo⛺👵re的关键特性🥚🇦🇬。他们随机抽取了2🇷🇺🐚00道题目，让A🦹‍♀️I多次尝试每😆🇲🇷道题，用实际答🛒🖊对率作为"真实难🇰🇼⚛scm度"的🤫衡量标准ℹ👳‍♀️，再与价🧓值模型的预测值🍮做对比👮🔬。

具体来说，🇦🇿🍰失真图处🤞😛理的是一对图像—2️⃣—一张叫做"锚图✔🇦🇮"（anc🌁🚬hor，可以理解🐃为参照图），另一⚖🚀张叫做"目标🧧⛪图"（📃👩‍🎓targ⚽🧹et，即被👨‍✈️比较的图）🔉。Verkor🍹.io团队😡表示，尽管有💂🌕所改进，但🔉LLM（逻辑模🌻🍴型）仍然缺☑🧕乏人类所拥有的直🚣‍♀️觉🖲🇦🇬。