新浪财经

泛站

滚动播报 2026-04-25 18:58:37

(来源:上观新闻)

一些细节微调🛳包括,aff🍖inity 🇦🇼scor😫🇬🇳e的激活函数从🇹🇷🏷Sigm👩‍🚒🇸🇰oid换成了Sq🇦🇮🏋rt(Soft☃plus🌷(·)),去掉了🇷🇼rout🚋🕟ing tar👳‍♀️🏜get nod🇨🇿es的数量约♻🚓束,前几层de⏺🇼🇫nse F💉FN换成了👨‍⚕️🧙‍♂️用Hash ro👩‍👩‍👧uting的🇲🇦🇨🇵MoE层🎨。

3D环面在1🚷👩‍🎤024芯📛片配置下,任意两🍷芯片间🆔📬最多需要16🇹🇯跳;Boa💄rdfl🐊👩‍🎓y通过高基📛☠数设计将最大跳✝🕟数压缩至🐽👤7跳,网络直👩‍❤️‍💋‍👩🈲泛站径缩减5🧮7️⃣6%,全😱🎐对全通信延⚓迟改善最高50%🕷🤯,对混合专家模型⛷⬆(MoE)和推🧕🇸🇦理模型中🚬频繁的🎗跨芯片令牌路由尤👩‍🍳😹为有利🎭⏏。实验数🥓据显示,SPP👃🌀O大约在🚀🙎‍♂️22小时🚸内就能达到约58🇺🇬分的峰💀值水平,而GRP🚥O等方法需要明✨显更长的时间才能🇨🇬💣达到可比水平,📏整体速度差距🖲🇷🇸约为5.9😇♐倍📗💦。