泛
(来源:上观新闻)
每块芯片集成38🦒4MB静态随机🏠🚑泛存取存储器(👔SRAM⛄😺),是上一代🧙♀️Iron🇱🇮wood👩👩👦🇹🇦的三倍,可将👣🛀更大的KV 🛤Cac❇👚he完整保留🇦🇶在芯片👨👨👦👦上,大幅减少🇧🇿🐓长上下文解🛴码过程中🇸🇧核心的空闲等📫待时间,对需要🇧🇬🥝多步骤😚推理的AI🍠任务尤🌌🐵为关键🇬🇮🚆。
sparse ⬇atte🇨🇳🌍ntio🚣n不是🚔从头打开👌🇬🇲,前1👩⚕️T to🖊🇨🇺ken用🏠🖲dense↖♈ attenti💘on做wa👙rmu📮p,扩到64K时🆕👮才intro⚗🧚♂️duce 👩🎓🇪🇨spars😏ity🎳😩。论文中,De🍍👨🎓epSeek🇸🇿💒表示: Deep🇨🇱☑泛See🍵k-V4-Pr🧗♂️o-Ma😁🤙x在标🥚⛳准推理benc🇧🇯hmark👨⚕️❌上优于GPT🇵🇳-5.2和G🇯🇵emini-3🕧.0-Pr🕷o,但略落🏬后于GPT-5.🌰🏝4和Ge🙇♀️🧻mini-👉3.1-Pro🌕。
Muon在LLM🗞规模上的🛐🍳第一次大规模👹验证是Kim⤵i K2❔。原文如下: 相👨👧🕉关阅读🙋♂️🇬🇭。在选中的这top🇲🇦👠-k压缩💐🗨KV块上做M🧰ulti-⚛ℹQuery A🇵🇷ttenti🇬🇪💽on,得到注🇬🇼意力输出🇧🇾🤖。当然,当图像♨🚔中的视觉证据本身📜不够明显时,GP🥦T-5 M🇸🇷ini 也会倾向🐄于信任失真图🇬🇭☢。装 Skill、🇬🇪🇳🇵更新 S👅kil🌍🏏l、统🖍一版本这🌇些事情,都可🇸🇱🔊以在群🇵🇸里一次性处理完👣,不用每个人再单🇸🇨🇲🇫独操作🐰。