泛目录
(来源:上观新闻)
原文为:We v🎛👨alidate🖕💇d the😉 fi🏡ne-gr👺🇫🇷ained EP🚴♀️🧩 sc🤾♀️🇹🇨hem🕸e on🥦 both N🥙🇸🇳VIDIA 🇰🇷🥖GPUs an🍍🇦🇨d HUAWEI🎣🥶 Ascend👩👩👧😈 NPUs 🍵⚪plat🗣form🗜🇹🇿s.) 晚点:晨🤚⬇阳提到 “率道🐊🤗而行,端然🈺🏴正己”🔕🌕。
“现在信息太多💆了,一个一个🇬🇷去看很费时间,💐而且也很散乱🤸♀️。基座基🍭本都是 MLA,🎂优化器也类似🇸🇹,之前大家🐸用 Adam🐳W 或🚔👧者 AM👩🦲SGr🔗🛃ad(Adam👩👦👦🇷🇺 的一个变🥳🏴体,通过保留历史🍈二阶矩👱泛目录估计的逐👨👨👦🛤元素最大🔗⬅值,限制自适📰🌚应学习率波动,🐔从而改善收敛🕥稳定性),现在陆🎺🙋续转向 Muon😑 或基于 Muo🚐🇹🇨n 微调🇱🇻。
CSA 是稀🎾🚟疏路线,在序⚰🆖列维度🔩做 4:1 🇨🇿压缩后🉐🏺再做 top🚩🇮🇳-k 选👰取;HCA🤦♀️ 更激进,做🕊 12🚥8:1 的压缩,🐻泛目录但保持稠密🚄注意力🚎☝。AI的出现使传💤统框架面📴➗临挑战😎。这种具🚵♀️☁身智慧🐥🧸是真实的🚪,是有价值🇾🇹👉的,AI在短🇨🇺期内无法真正取⚠代它🏴。“我真是个傻🧷👖瓜,竟🦏🙍然免费给他们提🐊🧳供资金来🐋创办一✌🐈家初创公司🐸🛬。