新浪财经

域名地址

滚动播报 2026-04-25 20:45:34

(来源:上观新闻)

它是一个新范式的🧜‍♀️起点🦂。每m个tok🇲🇸en的KV e🏪🛒ntri🇮🇲👕es,通🇲🇳🤴过一个带学习权重🥃😷的attent🇹🇻ion-like🇳🇮机制压成一🐠个🆓🍷。

Flash-Ma👈x可能是这篇论🇵🇪♿文最被低🔣🏏估的一💫部分💢。在几个↖🐘对比方法中,直🥃接在目标环境🎖里用强化学习训练🥮🌞的模型(📩👩‍🔬GRPO on 👆Targ🛋et)能达到3👩‍👧🇧🇱7.8🇮🇷域名地址%,一🍉👎种使用通用合🙆🍙成环境训练⌚的方法(AWM🇫🇰🕚)能达到38.4🥵💆‍♂️%,而一种通过🔢🥠优化系统提示词🇭🇺来植入🈚🔵能力描述的方法(🔨GEPA)能达到💂‍♀️39.6🎨🏴󠁧󠁢󠁥󠁮󠁧󠁿%🇳🇺。

最后还有一点需🍪🐫要说明📕:该芯片尚未🍡🦀实际生产🇮🇸。Muon是🦵前几年Kelle👩‍🍳🇧🇲r Jor📙dan那批人(🇳🇿👨‍🦲他现在在Op🗺🆓enAI🇵🇲🔲)在小模型上😙🦚验证过的优化🇷🇪💔器,基于矩阵🆓🦚正交化🇵🇬🎖。“虽然👨‍🎨最开始4️⃣🇦🇼使用H🔃9️⃣erm🇰🇿es的几次对话🇧🇳🦘,跟Open🇪🇬🙇Cla🔭🏝w的Token消〽耗量差🚽🐥不多,但越往后聊📚,会发现Herm🦔🇦🇴es消耗的Tok🥺🛁en反🐾而会少一些◼。