geo优化

滚动播报 2026-04-25 20:47:37

（来源：上观新闻）

2025年，M💅oonshot用🦀🚣‍♀️Muon（加上🚋🇹🇰他们自🕜😀己的QK-♑🗣Clip变种，合🐦geo优化称Mu🛄onC🈴🏜lip）训了一🇻🇮👊个1T参数的🧴MoE👩‍💻，15🖨.5T tok🌞en，全程🐬🐣零崩溃🇵🇾。1M MRCR🥛🤞上V4🍅优于Gemi🕵ni但明显不如C✈🐴laud🇦🇮🔋e🦵。AI科学家使用G⛱🔍LM-5模型时🏸👛达到了🔂平均3🏫☂3.73分🤢，比此前最强A📸🔫I基线高出1™🐦1.15分，👨‍⚖️并显著缩小🥇👩‍❤️‍💋‍👩了与人类👨‍🦱博士生⏲的差距💢🌤。这个概念是整个🇷🇴🇲🇩系统的技术基🎢🦇石，也🇸🇻是它与其他📳AI系统🇦🇹👀最显著的区别之一👨‍🦳。但是今年1月♟️🤖，特斯拉无视这🤺一投票结果，表📆示将向xAI投👨‍👨‍👦‍👦⏯入20亿美元🙂💄。

但现有🇷🇸🔪主流训🇪🇦练方法存在根本性🚝🍧的缺陷🥣，而这篇论文🏡🗡提出的🏢新方法，正是🇪🇷😜为了彻底解决🇷🇺🎪这个问题🍾。HLE上V4🇳🇺-Pro-Ma🈺🏎x 3🌷7.7，Ge🇨🇼mini-3🇧🇯🌉.1-Pro 4🇨🇬4.4🏖🏆，Cla😥🇳🇦ude📙🥫-Op🇹🇹😷us-4🏌.6-Ma🏏🚓x 40.0🧷🉑。拆任务🔄🎲、派活、盯进🧽度、验收结果，🇴🇲🗜都是它在管🇸🇩🐣。Pro有61⚰层，Flas🌛👀h有43层，🇪🇹🚵‍♀️CSA和HCA一💭层一层往上叠🇸🇦🕔。这种探索工作🇵🇾🏙是浪费🚌😿的，不🥠🉑必要地消耗了🦂令牌，而如🥰果模型对架构和工🧦程有更深入的🇸🇳理解，这些浪费🎢🎚是可以避免的🎪🥚geo优化。这个目标并非单⛹️‍♀️🇸🇱一目标🦑🧁，而是几个不🇰🇼同设计目标的🚔组合（功🇸🇨耗、性能⛅和面积5️⃣，即 PPA；🧂👩‍💼功能约束；以👨‍🦱及架构输入）👩‍👩‍👦‍👦🛠。