geo优化
(来源:上观新闻)
“无论领🦟导层怎么说,我🛳🥟都默认自己距离👨❤️💋👨被裁只剩两个月的🤺♏时间,🚝所以我会照常🏒工作👨👨👧。研究团队用数学工😉具仔细分析了⚰GRPO的运作🇰🇵🧞♀️机制后发现⬆:GRPO之所🇪🇦🇲🇩geo优化以奏效,并不是♒💴因为"多采样"🐁😷本身有什👵▪么神奇之☕处,而是因为它◻在不知不觉🇧🇪中把整个🚭🥋推理任务从一种框🆔👅架切换到了另一种*️⃣框架⏺🇦🇸。TRACE的📙对比分析💼🔨逻辑与此完🏄♀️全一致:一种能📪🍓力如果👩🎨👳♀️在成功案🐡例中也经常缺失,🦝可能只是因为⌨任务本身并不需要⚡它,或者该🚌🔙能力的定义本身🇹🇦就不够清👯♂️🤲晰;只有那些在失🎫败案例中明🤐显更多缺🎐🚭失的能力🦴♐,才是🉐👨👨👧真正的薄⏲🇮🇸弱环节👠👨🦳。
他们发现,🇬🇬geo优化打分员实际上👨💼是在偷懒—💃🇵🇹—它根本📥不关心A🔦I在推理过程👨👨👧👧中的第三步、第🔙五步、第二十🏌步在做什么,而🐨⛩是一直等到推理接🥠🇹🇫近尾声,才突然"🔄清醒过来",0️⃣🦹♂️geo优化根据最后几行文字⏯的语义特征猜测答🕜🇧🇦案是否正确🏧🏏。5.9倍的👯训练速度提升,则🥤意味着同⏰😐样的算力能🇲🇿在更短时间内🎞完成实验迭代,加🌔⬆快AI🤯🦓推理能力的🇬🇪研究进🚰🐁展🧭🇷🇸。LM Ar🛏ena 👨✈️最新榜单上,GP⏳T-Ima👨👩👧👦ge-⏸🤰2 以 15💧12 分登顶,领📩先第二🇬🇧名 2🧧42 分,评🇨🇻测机构直言📜🛏“这是一🎥次代差级别的碾👨👧🧥压”🦘。