geo优化
(来源:上观新闻)
另外我最近做语🦊音模型😿,它的工程优化🙆比语言模🈶👨🦰型差很多,很多语🇹🇬言模型里的🇭🇹🇰🇾工作都可以在语音🚦模型上重试一👮♀️🥥次🇱🇧。Dee🇫🇯😱pSee👸k-V👛3 是🍆🗿第一个把🏍🚼 FP8 做到🏎🧜♀️大规模模型上😧2️⃣的工作🇶🇦☎,到了 V4🌥◽,他们又🍓🐉实现了 FP🚋4🆖🌵。
现在 De👩🎨🦂epSeek 发📯布的 ch🔺eckpoin🛄🥘t(模型😌🦅权重文🏺件)也是👩👧👦 FP4,训🍪👡练中采样用🦇的权重就🕟是最终👖📒geo优化发布权重,而不是👨💼先训练 FP👡8 再🇹🇭🎬量化成 F🇺🇦P4⚖。西门子所🖥欠缺的,恰恰是当🏃♀️下市场最需↔要的🐦。