新浪财经

泛域名 泛目录 收录 区别

滚动播报 2026-04-25 19:31:44

(来源:上观新闻)

2025🛏🍏年3月,xAI🦝收购了X🍓。精品化☄😨不仅是商🇰🇵业选择🇦🇪🌌,更关乎创作📘的本质🌔。一个1M的上🤘下文,在V3🎂🇦🇹.2的成本结🐸构下是不可持续🤾‍♀️💧的,KV🎨🏗 cac🆒🧟‍♂️he会🍈❣把显存吃光🇨🇺👳。**说到🐸◾底,这⛸项研究发现了什🕸么,又🇮🇲意味着🥀🔀什么**🌤⛑ 归根结底,这项😉🇷🇸研究回👹🇨🇱答了一个在A🐳🎫I训练领域长期存🉐在争议的问题:👯‍♂️🗼大模型推理能力🇹🇰的训练,应该📺用什么样🍐的框架来👌👨‍👧‍👦建模? 研究团队🎐的答案是:💲把整个推理过🇺🇿程当成"一次💙性行动"🙁来评价,而不🏵是"一系🇴🇲列连续步骤🥛📩"🕔🕣。

Muon优化器 ⚗V4训练🔐🆔中绝大多数参数🇮🇪🆎优化用⚖的不是AdamW🇷🇪,是Muon🇷🇪。第一步,KV🎆🇦🇬压缩🦹‍♂️🇫🇯。数学任务🎗向数学expe🇲🇹🔹rt靠,编程🎆任务向编程exp😃🗿ert靠🤐⚱。我们认为这是由于🏳️‍🌈👩‍🦰 LLM 的预训🐧🦒练和后训练中🚹🕴都存在🧜‍♀️大量软件代码造🐎成的👾。它可以同🍖💖时召唤多个🙃✡子代理并行处理不📍🇵🇦同维度,再汇总成🕷完整的分🧘‍♀️🥠析文件,供后🔉续所有代📅🔃理参考⏩▪。网络拓扑方▪面,TP🐧U 8i放🏐弃了TP👾🦢U 8👌t沿用的3D☦环面(t🧟‍♂️orus)结构,👮‍♀️转而采用全新🇲🇶🌀的Bo🥒👝ardfly🚵‍♀️🚑互联拓扑🧖‍♀️📊。