火端泛站

滚动播报 2026-04-25 18:56:05

（来源：上观新闻）

**二🇸🇾、一个关键🦇发现：GRPO🇧🇹👶其实在"偷偷做别🧧的事"** 👨‍👨‍👦👪这篇论🌸🐻文最有趣的地方🦍在于，研究团队🇻🇨🔧对GRPO为何有☃👨‍👩‍👦‍👦效做出了🤛🙄一个全新的解读🦹‍♀️，而这🔩🦍个解读成为了他👨‍🦳们提出新⏱方法的理论基☝🧬础🏧。

一、AI助手也🇱🇨🌡会"选择性失忆⛳"：问题的根🦸‍♀️🥂源在哪里🇮🇷 考虑这样一个👨👵火端泛站场景：🐚你雇了一位新🤤®员工来处理客🇮🇲户投诉，他受过🚶‍♀️系统培训，规🏯😋章制度也背🇬🇲得滚瓜烂熟，但📟实际上手操作⏳时却频频出错‼。总参数1.6T⏯🐠，激活49B🕳。

与更简单代理🍒的对比同样说明🇦🇲了问题🌞。Q2：P🇿🇦☁AND♨💒A模型🇰🇭🦖火端泛站和GPT-4o这🚽⏩类大模型相比🕋🌲有什么优势？ A😚🔦：PANDA的🎵参数量只有0🧿📿.028亿，👷‍♀️🙍处理一对🗨图片仅需3.53☘🌁秒；而GPT-4🌓💁o等大模型参🌄数量达📏🤧数百亿甚至更多，🍱🕊且在区域级质🥐量比较任务上准👥确率仅🕴🧾26%，🇭🇹🤬接近随机猜🤧🎿测的20%🚪🚑。