新浪财经

魔术泛站群

滚动播报 2026-04-25 20:10:54

(来源:上观新闻)

他们发现,打分员💯实际上🔄是在偷懒——它根🕜本不关心AI在🔆😙推理过😡🗃程中的🇵🇹💟第三步🐭🇫🇷、第五步🍉💟、第二十步在做🚣什么,而是一直🍘等到推理🦉💢接近尾声🚴📕,才突然🙆‍♂️🎤"清醒过🇧🇼⏏来",根🇱🇮🎷据最后📯💼几行文字的语义6️⃣特征猜测答案6️⃣🗼是否正确🤐。

这就是☣🦒“与世界🇹🇲交互”🚗😹的真正含义,🦴不是被动🚨执行,而🇮🇪⭕是主动学⏺🇬🇾习🏋。作者/凯斯 🇬🇪👖编辑/三三 🇳🇱💼下班之🏠📁后,去球馆打一👔场羽毛球,🍝已经成了当下最流😷🇧🇫行的白领生↘活方式之🔼一🦠。参数量高达2👆☕70亿的 🍾Gem🥁ini 2🧵.5 P↪🗻ro(🕗⛪谷歌旗下最先进的🌽商业大模型之🇴🇲🚴一)只有🤽‍♀️🗡22%的准确率🤙,而随机猜测的🧡准确率🇦🇩是20%——🧟‍♀️也就是说🇳🇫🥳,Gem🇨🇻ini 2.5 🕝🖲Pro 在👨‍👩‍👧‍👧🤔这项任务上🚶的表现几乎与瞎猜🌊👻无异🇨🇺🏳️‍🌈。

然后,🧰🔋DC 使用 🐶👨‍👦VCD 分析🇨🇵👩‍👦来追踪📜🏥问题的根本原🚢因,提出🙇‍♀️🤳修复方案,实施😻修复方案,🎹👟并再次进行测📷试🛵。“我们不会在全公🦐🧚‍♀️司范围内限🧺🇺🇳制出差🔌。跑分什么的我就🧰🤽‍♀️不贴了,模型🚅到现在🍾,最好的测试方🇨🇵式就是直🌴👨‍👨‍👦‍👦接放到自己的🈸⚫任务里去跑🦠。