蜘蛛识别扫一扫

滚动播报 2026-05-03 02:32:06

（来源：上观新闻）

晨阳怎么🗯🤺看这个⏹👩‍👧‍👧表现？（注：🇳🇪访谈发生👨‍🎤🌄于 4 月 ↔28 🏧📗日，到 ✏🐏5 月 1 日🐴，V4-Pr🗝⤴o 在 Chat👩‍🏫🕢bot Ar☄🌂ena 上的❕🧂排名为超越了 🍂🛳K2.6，🎛仍低于 🎃GLM-5.1🇨🇳🚵‍♀️。infra 要🇬🇭🔰做的是在计算路径🇶🇦📛相同的情况下🇵🇲加速计算🧽。实事求是地说，⭕🛵在开源领域，💣我们团队的量👨‍👧‍👦👨‍🎤化 RL 做🥺🇯🇵得比较🍄领先，但和 🇦🇷🧔Deep🧗‍♀️🇹🇿Seek 🚜还有差距🙋。真正稀缺的仍然🤒是理解问题、🥃拆解任务🥫、创新表达的人👩‍👩‍👦‍👦👨‍⚖️。

从方法论上🦏看，这📖➖与 D🧰💗eepMi🏺nd 的 A☔⬇lph🦎aZero🏅👜 如出‼一辙💆‍♂️。我在此并不否定🐵🖇情感，而是主☑张要区分两件事：🗑🇨🇾情感作为道德的👲发动机，和情感作🙈为判断的📞🔋方向盘🇨🇳🧟‍♀️。这次 Deep👩‍👧‍👦🔓Seek 引🌞📥入了 mHC☁，这是一个怎样的🗝改进？刘🥀益枫：mHC🌴 之前，🇵🇾字节 Seed 🇬🇪🏋️‍♀️先提出了 HC（⛷Hyper↗-con☯🐶nect🇺🇳ion，超连接🕦🌙），思路是扩展层🚔与层之间🛩的信息流宽度🕠。你们怎么理解⛴ V4🇬🇬🍄 的整体架构🔽👈思路？ 👨‍🌾赵晨阳：V4 🏳🧸整体保留🇮🇶🚑了 De🍀🍾epSe🇬🇺🍶ekMoE 框🚋架和 M💾🧾TP （Mul😟ti-T🥚oken Pre🦄👩‍🏫dic👆🆒tion，🇬🇩即 “多💡🛬 tok🌯en 预测”🔯，允许模型一次性🐽预测多个🇳🇷🕜 To🏊‍♀️ken）策略，⛸🚂但在四个🇪🇹层面做了改🏳️‍🌈造：注🧨意力，用了混🧘‍♂️🏭合稀疏注意力；残🐉🙈差，使用了 mH🍡C；优🧶🧽化器，在这么大的🔩💁模型规模上使用⬜了 Mu🇳🇿on；以📼及 i🇸🇧↕nfr🆙🍧a 的变化，🇸🇾🇱🇮其中两个关💢🧾键词是 Ti💓leL🦵ang 和〰FP4🇱🇹。