泛

滚动播报 2026-04-25 17:31:16

（来源：上观新闻）

每块芯片集成38🦒4MB静态随机🏠🚑泛存取存储器（👔SRAM⛄😺），是上一代🧙‍♀️Iron🇱🇮wood👩‍👩‍👦🇹🇦的三倍，可将👣🛀更大的KV 🛤Cac❇👚he完整保留🇦🇶在芯片👨‍👨‍👦‍👦上，大幅减少🇧🇿🐓长上下文解🛴码过程中🇸🇧核心的空闲等📫待时间，对需要🇧🇬🥝多步骤😚推理的AI🍠任务尤🌌🐵为关键🇬🇮🚆。

sparse ⬇atte🇨🇳🌍ntio🚣n不是🚔从头打开👌🇬🇲，前1👩‍⚕️T to🖊🇨🇺ken用🏠🖲dense↖♈ attenti💘on做wa👙rmu📮p，扩到64K时🆕👮才intro⚗🧚‍♂️duce 👩‍🎓🇪🇨spars😏ity🎳😩。论文中，De🍍👨‍🎓epSeek🇸🇿💒表示： Deep🇨🇱☑泛See🍵k-V4-Pr🧗‍♂️o-Ma😁🤙x在标🥚⛳准推理benc🇧🇯hmark👨‍⚕️❌上优于GPT🇵🇳-5.2和G🇯🇵emini-3🕧.0-Pr🕷o，但略落🏬后于GPT-5.🌰🏝4和Ge🙇‍♀️🧻mini-👉3.1-Pro🌕。

Muon在LLM🗞规模上的🛐🍳第一次大规模👹验证是Kim⤵i K2❔。原文如下：相👨‍👧🕉关阅读🙋‍♂️🇬🇭。在选中的这top🇲🇦👠-k压缩💐🗨KV块上做M🧰ulti-⚛ℹQuery A🇵🇷ttenti🇬🇪💽on，得到注🇬🇼意力输出🇧🇾🤖。当然，当图像♨🚔中的视觉证据本身📜不够明显时，GP🥦T-5 M🇸🇷ini 也会倾向🐄于信任失真图🇬🇭☢。装 Skill、🇬🇪🇳🇵更新 S👅kil🌍🏏l、统🖍一版本这🌇些事情，都可🇸🇱🔊以在群🇵🇸里一次性处理完👣，不用每个人再单🇸🇨🇲🇫独操作🐰。