魔术泛站群
(来源:上观新闻)
搬弄是🇹🇲5️⃣非不是吸睛密码,☝🎤网络名人的🏺🐿“名”,不能靠📙碰瓷而来⛷👳♀️。晚点:正好这几🇺🇾天正在开🍺🦜 ICLR (👩🚒国际学习表👨👩👧🍏征会议,I⚡🐼nternat🇬🇸iona🏳️🌈l Confe🌐rence 🚣♀️💧on Learn🇹🇱ing Re👩👩👧👦🧜♀️pres🌊entation🔭🦏s,AI ⛲顶会之一🤙🖊), 大🐫🛁家在会场是如何7️⃣讨论 V👩👦👦4 和同期进展⚓的? 刘益🥺枫:有🍒意思的💒是,V🌃4 放弃了从 V🌚🕯2 到 V3👖👨🦳 使用的😥🕐 MLA🌙🌙(注:多头潜👨👩👧👧在注意力,由 D☪eep🤫🤑Seek🔜🇬🇶 提出)🔳🕚,而目前 ⚾🌟K 2.6、👩🔧GLM-5.1 🦚💭等模型依然采🥄🇬🇶用 ML🔩A🙊☯。
更值得🏴关注的是,Ek😸🏖a 的算法🏴据称还展🐧魔术泛站群现出自主发明策🥓🙊略的能🔍力🎞。(4:1、128⭐🔗:1 是指把 👷魔术泛站群4 个 t🎇oken 聚合🍢成一个🛅🕋表示和🦛🥟把 1🇷🇺28 个 tok🙈en 🔓聚合成一个表🖍🇺🇸示,所🏏以说 H⏳🍐CA 的压缩更激🦃◽进) 每层0️⃣用 CSA 还🏴☠️是 H⌨CA 是预定义的🚄🙋,因此面对同一💂🎻个长上下文,不同🕜🥇层会从不🚴同视角去看——稀🆙疏层(CSA👩👩👧👦🇸🇹)精确🐯🏃♀️锁定关键 tok🇵🇪en,稠密层(🕖🔭HCA)🌂提供整体语义💖概览💢♎。
赵晨阳:🍦🧐做编译器一直是🔀非常伟大的事业🕣🚣,但也很苦🇫🇯、离商业📲🕚远、不被关注↔🦐。“芯片耐受辐👨🏫射的极限仍未明确👎🌎。合规节奏追不上⛵↪模型迭代☸🎒速度,工具建设者🇲🇽🛵和业务开发者🥅♿的认知🎮🐘之间存在🇷🇴✏断层——🦏基础架构团👨🦱🤮队评测用👤😓 Human📷⁉Eval📿 和 M🌙👤BPP,不是“✂能不能🇬🇳理解我们存🇱🇰储过程里的隐🖍规则“🏞👙。再往下会不会有🖤🚜更激进的优化和🇪🇦压缩?🇳🇴🍓非常值得期待👆。这次高价毛巾的🚏争议,小雷哔📍🇲🇲哔(ID:xia🇦🇼🇬🇩oleibb📴👐b)也看出大🚊家对民🇯🇲💴生两个🖕🇯🇴字的理解出了偏🚫🦋差🤜🔁。