geo优化

滚动播报 2026-04-25 21:06:26

（来源：上观新闻）

“无论领🦟导层怎么说，我🛳🥟都默认自己距离👨‍❤️‍💋‍👨被裁只剩两个月的🤺♏时间，🚝所以我会照常🏒工作👨‍👨‍👧。研究团队用数学工😉具仔细分析了⚰GRPO的运作🇰🇵🧞‍♀️机制后发现⬆：GRPO之所🇪🇦🇲🇩geo优化以奏效，并不是♒💴因为"多采样"🐁😷本身有什👵▪么神奇之☕处，而是因为它◻在不知不觉🇧🇪中把整个🚭🥋推理任务从一种框🆔👅架切换到了另一种*️⃣框架⏺🇦🇸。TRACE的📙对比分析💼🔨逻辑与此完🏄‍♀️全一致：一种能📪🍓力如果👩‍🎨👳‍♀️在成功案🐡例中也经常缺失，🦝可能只是因为⌨任务本身并不需要⚡它，或者该🚌🔙能力的定义本身🇹🇦就不够清👯‍♂️🤲晰；只有那些在失🎫败案例中明🤐显更多缺🎐🚭失的能力🦴♐，才是🉐👨‍👨‍👧真正的薄⏲🇮🇸弱环节👠👨‍🦳。

他们发现，🇬🇬geo优化打分员实际上👨‍💼是在偷懒—💃🇵🇹—它根本📥不关心A🔦I在推理过程👨‍👨‍👧‍👧中的第三步、第🔙五步、第二十🏌步在做什么，而🐨⛩是一直等到推理接🥠🇹🇫近尾声，才突然"🔄清醒过来"，0️⃣🦹‍♂️geo优化根据最后几行文字⏯的语义特征猜测答🕜🇧🇦案是否正确🏧🏏。5.9倍的👯训练速度提升，则🥤意味着同⏰😐样的算力能🇲🇿在更短时间内🎞完成实验迭代，加🌔⬆快AI🤯🦓推理能力的🇬🇪研究进🚰🐁展🧭🇷🇸。LM Ar🛏ena 👨‍✈️最新榜单上，GP⏳T-Ima👨‍👩‍👧‍👦ge-⏸🤰2 以 15💧12 分登顶，领📩先第二🇬🇧名 2🧧42 分，评🇨🇻测机构直言📜🛏“这是一🎥次代差级别的碾👨‍👧🧥压”🦘。