scm
(来源:上观新闻)
更重要🔚的是,🇳🇬🇰🇾他们通⚾💖过大规模实验揭示🍛了当前最先进🙌🤗的多模态大语🥖言模型在区域🌌🈯级质量理解上的系🚠🎡统性短板——即使👳是 Gem↖💺ini 🦄↔2.5 Pro 😂这样的🦗🧂顶尖商业模型,🙃在这类任务🕹🇮🇳上的表现也🗺🎂接近随机猜测的🧟♂️📥水平🇸🇨。
我们将♌🇳🇱回顾最终☝🥁VerCo⛺👵re的关键特性🥚🇦🇬。他们随机抽取了2🇷🇺🐚00道题目,让A🦹♀️I多次尝试每😆🇲🇷道题,用实际答🛒🖊对率作为"真实难🇰🇼⚛scm度"的🤫衡量标准ℹ👳♀️,再与价🧓值模型的预测值🍮做对比👮🔬。
具体来说,🇦🇿🍰失真图处🤞😛理的是一对图像—2️⃣—一张叫做"锚图✔🇦🇮"(anc🌁🚬hor,可以理解🐃为参照图),另一⚖🚀张叫做"目标🧧⛪图"(📃👩🎓targ⚽🧹et,即被👨✈️比较的图)🔉。Verkor🍹.io团队😡表示,尽管有💂🌕所改进,但🔉LLM(逻辑模🌻🍴型)仍然缺☑🧕乏人类所拥有的直🚣♀️觉🖲🇦🇬。