强引蜘蛛工具
(来源:上观新闻)
CSA 是📨🤮稀疏路线,在👧👩👦序列维度做 🥨4:1 压缩后再🌩🇬🇼做 top-k 🌤🚹选取;♟️👹HCA 更🚬激进,➗🍼做 128🥰:1 的压🕍🔚缩,但保持稠密注🤯意力🖌🛹。
优化器:Muon🍄🤙 已成检🎑🇹🇱验大模型👩👧👦团队工程能力的🐛试金石 😿👔晚点:V4🇼🇸🇹🇫 里还有🐞两个很重要的变⛲🔨化,一是👓残差上,🕊使用了 Deep🔞👂Seek🌵🍀 去年底提出的🇧🇬🏑 mHC🐔,一是业🐹🎟内现在已🇬🇧用得比较多的 M🇨🇾uon🕉。
晚点:目前🅰🎺在这么大规♨🇦🇹模的开源模型里🇫🇲,FP4 是不是😠🤺只有 De🇯🇵🇳🇵epSeek 用🥾了? 🤹♀️🃏赵晨阳🍐🦞:Ope🇫🇷🙍nAI🛫 的开源模👬🇸🇳型 gpt-os🍇🧬s 也是,☹🦒但大家技术选择🔱不完全一致🇲🇹📬。