泛目录

滚动播报 2026-04-25 19:07:30

（来源：上观新闻）

参数量高达2↙70亿的 G🇵🇾emini🥃🇨🇮 2.👨‍👦‍👦5 Pro🥀🇲🇾（谷歌旗下最先🚡进的商业大模型🤣之一）🧘‍♂️只有22%的🦋准确率，而随机🇵🇦🇩🇪猜测的准确率🦂是20%——📤🤷‍♀️也就是🗂说，Gemi🏙ni 2🍿🖕.5 Pro 在🌐这项任务🎃🕑上的表现几*️⃣乎与瞎猜无🚋异💍。

一套看似优♻☮雅的后训练方法🌫泛目录论，背后是一⛎堆「不这样做就装😁不下」的工程♌妥协🙁🍙。失败覆盖率的分布🎖也非常集中："结🤽‍♂️构化数🗄😅据推理"覆盖🥒了约41个失败🍌案例，"多👩‍🎓步骤任🈺🕘务完成"覆盖约💋25个，"🥊前提条🧹泛目录件验证"约34个🔒，"工具调用精🚸确性"🇭🇰约20🧞‍♀️🍷个，而其他被淘🕓😈汰的候选🇱🇦能力大🇰🇭🙁多只覆盖🐬🚤10到15🛴个案例😤🚨。

在训练超🇸🇳👁参数方面，🔁🇸🇳研究团队对损失函6️⃣数中四🏚🤮项任务的权重🔃🦷系数进行了网格搜🍈索，最终确定的配🇬🇶🔺置为：区域🌲🇴🇲比较关系损失权📉重0.1🦶、失真类✉🧛‍♀️型识别损失权重1🆒◾.0、严重程度🙎‍♂️😇分类损失权重🚒👨‍👦0.1、质🇵🇪量评分回归损失权🐍🏸重1.0🚻。