新浪财经

下载谷歌商店

滚动播报 2026-04-25 15:11:43

(来源:上观新闻)

梁文锋在接受暗💰涌采访🏏🔺时说:“对研究员🧲📌来说,⛲📑对算力的渴求是🛶😂永无止境的😄🦕。当开发者询问某♨🥴个函数时,系🐫统能检索⛈到的不只是文字记🚵‍♀️🎒忆,还有✌💅该函数的调用者、🍖🐘依赖项和架构决🇳🇱🐯策背景🇸🇴。

Muon的核心🌡思想是:在每次💝👑更新参🇲🇨数之前,先📷对梯度矩阵做🔺一次"🇽🇰正交化"🕐处理——通过Ne🇺🇦🧷wton-Sch🇲🇫🇮🇶ulz迭代,把🖥梯度矩阵✔🌔的奇异值🇽🇰逼近1,使参数更🌸新的方📮🎯向更加"规整"🇰🇪🌷。如果这一机制能🐬够在真实场景中🦈稳定运行,那么✋👩‍🦳长上下文能力将从🗑⌛高端模💳型的附加项🌙🐈,逐渐转🇾🇪向应用层的基础配🧘‍♂️置💡🙎。

在真实的聊天🇧🇫😥场景中,模型收到🇸🇻👜用户问题后通常需⛄要先执行若🧼🙈干辅助判🧚‍♂️断:要🚹不要联网🚷搜索?这个问题是⚾😑什么领域?U🚮🚄RL需不需😆要抓取?传统做⚫法是维护🌧一个独🍣➿立的小模型来完成🗝⭐这些判断,代🇲🇪⌨价是额外的前向🍨🇹🇿推理和🗞预填充消耗,增🚤加了首to🦕ken延迟(T🎟TFT)🇦🇱5️⃣。