泛目录
(来源:上观新闻)
参数量高达2↙70亿的 G🇵🇾emini🥃🇨🇮 2.👨👦👦5 Pro🥀🇲🇾(谷歌旗下最先🚡进的商业大模型🤣之一)🧘♂️只有22%的🦋准确率,而随机🇵🇦🇩🇪猜测的准确率🦂是20%——📤🤷♀️也就是🗂说,Gemi🏙ni 2🍿🖕.5 Pro 在🌐这项任务🎃🕑上的表现几*️⃣乎与瞎猜无🚋异💍。
一套看似优♻☮雅的后训练方法🌫泛目录论,背后是一⛎堆「不这样做就装😁不下」的工程♌妥协🙁🍙。失败覆盖率的分布🎖也非常集中:"结🤽♂️构化数🗄😅据推理"覆盖🥒了约41个失败🍌案例,"多👩🎓步骤任🈺🕘务完成"覆盖约💋25个,"🥊前提条🧹泛目录件验证"约34个🔒,"工具调用精🚸确性"🇭🇰约20🧞♀️🍷个,而其他被淘🕓😈汰的候选🇱🇦能力大🇰🇭🙁多只覆盖🐬🚤10到15🛴个案例😤🚨。
在训练超🇸🇳👁参数方面,🔁🇸🇳研究团队对损失函6️⃣数中四🏚🤮项任务的权重🔃🦷系数进行了网格搜🍈索,最终确定的配🇬🇶🔺置为:区域🌲🇴🇲比较关系损失权📉重0.1🦶、失真类✉🧛♀️型识别损失权重1🆒◾.0、严重程度🙎♂️😇分类损失权重🚒👨👦0.1、质🇵🇪量评分回归损失权🐍🏸重1.0🚻。