谷歌优化
(来源:上观新闻)
没有任何地方把这🇸🇯些规则完整记📘🌼下来过🍷。训练阶段🇸🇱,优化器维持 🕝🇱🇨FP32 主权☪📨重,计算前先压缩🍊😃到 FP🇪🇭👩🏭4 范围🇫🇲,再无损反量化🔬🦢回 FP8 计算🛬。反正模型贵👩🎓😖也有人买🇻🇬,之后再考虑降🥒成本🇳🇵。马斯克的🤪其他公🧟♂️司,包括🍯8️⃣SpaceX👮和xAI⛳,也会承担一部分🚧安保费⛩用,以应对🥬与马斯😆克高知🇲🇺🇩🇯名度相关的风险⛩🧫。从方法🧯论上看,这与 💋DeepMind🚅🇫🇮 的 Alph🔚aZe🛹🐀ro 如出一辙🚓🐂。
所以公🇸🇪🍗布这个成本ℹ本身没太大意义👾🇳🇿。我们的 IN🇿🇦😉T4 量化感知🇬🇧训练,🎗🇧🇮采样做🏩🕹的是 W🎈4A1⚡6,也就是权重 🛩🌅4 位、🦜激活值 1🚂6 位,Deep💿🌷Seek 做到了👩👧👦🇦🇩更极限🇮🇩🇧🇭的 W🇵🇸💰4A8☄。华为算力💱链下游的👨👦其他几家公司也🧳是类似的情况🏓♠。
前沿探索🇷🇴和对比验证🦈🥀的实验成本,人🐀🖌力和数据成本🇹🇩✴才是主要开支👩❤️💋👩🇷🇼。它和数学竞赛🇸🇹♠谷歌优化、SW📠E-b📰💵ench(主流代🇨🇾🔯码能力基准)🗄很不一样,这🤲个任务🍻🕵在完成编码后🇧🇲,还要和🛹审核者做多🕋🏀轮修改🇦🇴沟通,再把代码合🚣🌋并进去👨❤️👨⛴。