泛站
(来源:上观新闻)
赵晨阳:到🕝👨💻底做订阅制🦵🛠,还是 t🧨🙅♂️oke👒🔖n by to🎴ken📧 计费🇨🇺🇸🇩?我更倾🏘🧵向订阅制,同😸🇳🇮时额度用完📙🌾再收 tok📍🎹en 🦉费🇨🇺➡。任何一个单独上🍣线都需要🧀大规模 debu⚜🇲🇸g,四👖个一起上的复杂⚜🎪度更是组合🇧🇼🔊式爆炸🇫🇲。
但位宽太小🏓🏴也会导致训练中梯🖼🧜♀️度溢出或归零⛰🧥。晚点:好像⚽👤也没有太多人愿意🏋️♀️👨🎓开源视频生成模型💶♊,这是不是侧面说💡明它确实挺赚钱?🍧😵迄今比较先进的💴开源视频生🌶成模型仍🦈是阿里的通💁♂️🛵义万象⚱🇲🇪。
训练时把优🔂🏳化器换成 M📝🥶uon(矩阵级🇦🇱别优化器 ,🗓能对整个🧠参数矩阵进行🏔🚗正交化处理)🏵🕋,训练精度💄泛站推进到 FP4🏫😀,进一步压缩显🧁存和带宽😙;推理时引入 D🦴SA(☠⛈DeepS🧗♀️eek🥟👳 稀疏注意力)🔖、DeepEP(🐐🕚Deep🇰🇿See🇧🇳k 通信😼效率的底🛐层基础设🥅🚎施库)、Meg🤾♂️a MoE 🤝🧸这一整套 I🦚nfra🍈。