网络书源

滚动播报 2026-05-03 02:27:38

（来源：上观新闻）

Kel🎠ler Jor🇹🇫dan 的五步牛🍸🇲🇸顿-舒尔⛹️‍♀️😴茨迭代，🎸和 DeepSe⏸ek-V4 🆒🦜的十步牛顿-舒🚆🛢尔茨迭代哪个更👤🤜好，值得继🎺👩‍💼续探索🔮。如果只是几⛳千 Token 👃的输入输出，效🇱🇾👪率提升并不显🍓🗯著🐋🎒。再往下🥗会不会有🐽🍪更激进的🥪👥优化和压缩？🎀🐱非常值得👘期待💁。4月28日，追觅🕑🦒科技创始🚭🧑人@俞浩🎨🎹-爱送黄金🦃🦅 先后👨‍👩‍👦‍👦🤗发4条微博炮轰🇲🇪🕠小红书，引发全🍌网热议🍭。

你们怎么理解 🇸🇹V4 的整体架🌨🔴构思路🌹🥼？赵晨阳🇱🇨：V4 整体保🏑留了 Dee🛄👨‍⚖️pSeekM😻🇩🇴oE 🏙框架和🏠 MTP （🙁🕗Mul👭🏴󠁧󠁢󠁥󠁮󠁧󠁿ti-To🛏👨‍👨‍👧ken 😿🇨🇱Predict🇱🇰🚺ion，即 “多😌 toke🛍n 预测”，🏹🏐允许模型一次性预🛒😕测多个 To🌩🚀ken）策略🍬，但在四个🍶🇬🇾层面做了🇹🇷🇬🇹改造：注意力，🇶🇦🇩🇪用了混合稀疏注意👵力；残差，使用👩‍👧‍👧了 mHC；优🍯化器，在这么大的🙊模型规模🐷上使用了 🇰🇿Muon😒；以及👩‍🍳 infra 🥋的变化，其🔓网络书源中两个关㊗🇬🇾键词是🤸‍♂️🔒 TileL🔆ang 和 FP🏈✏4🚊。“以YOLO（计🏐🇮🇲算机视觉领域目⚪🍶标检测技术）为🔫网络书源例，很多学生都🧩是用Y🔂📄OLO🕟。