源仓库3.0书源
(来源:上观新闻)
现在模型足够好了🎺。赵晨阳:😢但有一点值🔳得欣喜:这几代😙模型没💠🇭🇺源仓库3.0书源有明显🇦🇫退化,之🧗♀️🛫前做得好的🇧🇹🆘任务,后面没🧹🌀有变差,这很难🇬🇲,代价👩🔬❤是模型上下文长度🕤已非常🥯🌂夸张🏌️♀️🥇。这三样🔉🤯放在以前,🎧你可以说“模型📤本身还不够好,做🕹👿源仓库3.0书源了这些也🧖♀️白做”🔳➖。测评面向的是🎿🍃具体任务,发布一🤦♂️两年后🔴就可能过时📽🇸🇯。Muon ⛵🇳🇮的优势是🗨🎼砍掉了🎞二阶动量🗼🦁,opt📺imizer 🉑⛽state🦵↔ (优化器在🍖👨👩👦👦更新权🆎重时需要持续记🇦🇫🇨🇨录的内部历史🏴数据)从🇸🇪两倍降到一倍,◀能节省相当多显🕎🍢存✅。
赵晨阳:我之前📖🌂的一个研究是🆒评估多轮 Age🇯🇲nt 在 G🈺↩itHub 🚶♀️🙇上提交 PR 🙅♂️时的真实表现↘。写 kernel💿 的语言,通⛴常大家会对比⛹️♀️ CUDA、Tr🤪👷♀️iton 和 T📛ile✝Lang: C📨UDA 是英🇳🇵🐳伟达的😙护城河👩🎤👨👩👧,性能⛸🇲🇳最高,🇲🇵🐌但开发和维护成本🕜🌥也最高🤝🕔。如果只是几💖🇵🇾千 Toke🌳n 的输入输出🇨🇵◾,效率🇬🇼❗提升并不显著🌎📀。现在模型👩🚀足够好了🌝🚞。杨涵涵🇬🇧🛳作为项目导演,🚧☣负责剧本和分镜把🚨控;另🍖🥬外两人,一个😟是 AI 动画师🚂🇱🇨,主攻 A🐄I“抽卡”和🇲🇽剪辑;一个是 A🇫🇮I 音乐创作人,🇧🇮🧓源仓库3.0书源负责音乐🐕🖋和音效🌊🔓。