BAIDU优化
(来源:上观新闻)
这背后也🌏😈反映做模型🇵🇬的两种不🔧💡同倾向:中国的⛹️♀️开源模型更追求🥀工程优化;🇸🇽🅰美国的闭源📱模型更追求提出🔽和开辟新的能力👵方向🇸🇽🖌。系统内👐部被画出一条边界🔽:这边有💫🏺 sp📌ec,那边没有💗。我们的 INT🇫🇰4 量化感🚏知训练,采🌏样做的是 W4🖤📰A16,也🧞♂️🖕就是权重 4🗃BAIDU优化 位、4️⃣😏激活值 1🇺🇬🐅6 位,Deep🔟📠Seek 做到了🤑更极限的 W4A⚪8😮🇦🇺。
晚点:前面我们♊🏣讨论了♑⛅性能,效率上,V🕡🍛4 技术报告里📔提到:📯在百万级上下文中❇🌹,Deep🙎♂️See🏹🍄k-V4⛵-Pro😉 的单🚄 token🚒 推理 FLOP🧞♀️👨👩👧👧s(衡量计算量🕑👩🔬,对应🚐❤计算资源) 是 🏤BAIDU优化V3.2🈚☺ 的 27🕯🐬%,KV 4️⃣⏭缓存占用🍊(对应存储资🈯✉源)是 V3.2👩🏭🇲🇾 的 10%🕣👧。