新浪财经

泛目录

滚动播报 2026-04-25 15:33:18

(来源:上观新闻)

Medium🇫🇷级别中,🚕👂一张图是单🖋🤪一失真,😪🦔另一张每个🐟🍡区域的🥕失真类型各不🤥🇷🇴相同,识别😝🇧🇬难度增加🇰🇵🇲🇭。大部分公司还在🧴卷单 Agen🇬🇧🎪t 的⭐🇵🇾能力👛。结果显示💢,4层是一个甜🍁🇻🇨蜜点——既🚛足够深以捕捉🕕💗复杂的🇸🇰🆘跨图像🎑区域对👭💭应关系,又不会🍯因层数🇲🇴过多而导致☠🤖过拟合或训练困⛎难🚁。默认配置使用🇦🇷♈ DIN🐼Ov2(小型版🎶🎎本,Vi✔T-s,384🏃‍♀️🥪维特征),🧰🛵研究团队还测试🇮🇩了 DINO🚹v2(基础版☃本,Vi🧚‍♂️T-b,7👵🧴68维🇨🇿⏬特征)和 🇬🇮Sig◾LIP(76🇦🇮8维)的♻效果🤜。

更重要☄的是,他们通过🗯大规模实验揭😩示了当前🏸🇸🇷最先进的🇮🇹🇮🇴多模态大语言模🧛‍♀️型在区域级质量🤬📹理解上的系统性❕🍚短板——即使🍡是 Gemini🇳🇪🧓 2.5 P☎🙊ro 这样👱的顶尖商业模型🏞,在这类任务上的🛅表现也接近😣随机猜测的水平🏨🏯。这项由南方科技🇱🇮泛目录大学、北京邮电💘⛹大学、微🎈👨‍🌾软亚洲研究院、🇹🇲😜上海财经大学、💂清华大🇲🇴学及INFL🥡🦵Y T🛸🤔ECH联合开展🇦🇼🧖‍♀️的研究,以预印🌵🇦🇸本形式于2026✌🧰年4月发布,论文🥠🈴编号为arXiv⬛🖱:2604.0🖐8865🛋✒。