火端泛站
(来源:上观新闻)
mHC(流形约🏡😼束超连接)🌭:202🚵5年12月🐖📄31日🔚上传ar📂Xiv👩⚕️,梁文锋挂名🧚♂️🇲🇲。如果只看激活参🇪🇭数量,这是🌄👩💼目前效率最极致的🇮🇱推理模型之🍖一👲🧰。删到V4,单🍃token推理🤶FLOPs🌙🧘♀️砍到四分之一,♏🔳KV c🈚🇧🇶ache砍到十分🏴🛫之一🔭。训练数据量整整翻🇺🇿了一倍多(增长💘🤝约 1↗.2 🛃🇷🇪倍)🏇。
就像把一群优秀的🛀人放在🏴☠️🤣一起,就会🏫有想不到的化学反🤢♟️应一样,把一群🔡 Age🇹🇿🕠nt 放到一⚜🏦起,应🇸🇯🆑该也会是这样🧢7️⃣。马斯克在📞👩👩👧2016🌫🇪🇬年的一次采访🇲🇽中表示,当特斯拉👠🥀在2008😅年全球金融🇰🇵🇲🇪危机中面临挑🔫🥕战时,🔉🚆他从Space🇫🇯X借了200🏸0万美💼👨🚀元来帮助这家汽车🚯公司🥾🥐。
Muon是前几🇲🇫👩🚒年Kell🌷👩🌾er Jor🙃🎪dan那批🇧🇦人(他现在在Op♐enAI)🇨🇻🇲🇴在小模型上验👟证过的优化器,基😾📙于矩阵👩🏭正交化⏫。实现上用S🎼inkhor🤒n-Knopp迭🦔代,交替做🥊行归一化和列归🤷♀️🐁一化,🚑迭代20次收敛💆♂️💘。更强大的视觉特🍂🍨征提取器、更复杂🖱🇧🇴的跨图像对应机制🇳🇫🥯,都可能进一🗞🔉步提升💴✳性能🙄。