新浪财经

泛站

滚动播报 2026-04-25 20:20:35

(来源:上观新闻)

研究提出了一🧷📜个名为T🚐RACE的系🖱🥾统,全🇨🇦称是"Tur↗ning Re🏈curr🤘🇹🇦ent A👩‍🎓gent fa🈵ilur😱🧶es int🌃🇬🇪o Ca🐵pabi🎓lity-➰targ👨‍👦eted 💪train🙋‍♂️📀ing Envi🦊🇩🇪ronment🥮s",中文可以🎉👋理解为"把反🗝🇵🇰复出现的失🐁败转化💂‍♀️为针对性训🚭🥚练环境"🏗。

动作是最🌒*️⃣有说服力的表🗡🗣态🥠。他给出了一个🧐务实建🈂议:“一定要🃏🥶留存创作过😆🚃程痕迹,包括交互👨‍👧‍👦频次、版本迭代🛂🧖‍♂️记录—🇦🇩🇳🇿—这些是未来确权🖼的重要♿⏬依据👳🔷。DC 必🍂须能够在消耗🍾数百亿个令🥭牌的情况下, 朝☸⏫着目标——功能👥😽正确、高📷🎅性能的设计——不🏗断前进🤜。

他们随机抽取🥩↪了200道题🎒目,让🇸🇧🕕AI多🙍次尝试🇨🇦每道题,用实🎩际答对率作为"⚫🛤真实难度"的衡✔🦉量标准,再🔌🏉与价值🎭模型的预🗂测值做对🔺😪比🐲。参数量🔥💺高达270🧂亿的 👻Gemini 2🕠🔼.5 Pro(谷🇹🇰歌旗下🎀⏺最先进的商业大⬇👋模型之一)⌚只有22🇸🇬👨‍⚖️%的准确率,而随🏈机猜测🇳🇮的准确😉率是20%——🔪✅也就是说,Ge🕹mini 2.🙌5 Pro 🌈在这项任务上👩‍👩‍👧‍👧的表现几乎与瞎猜🚛无异🍖。