BAIDU优化

滚动播报 2026-04-25 17:22:03

（来源：上观新闻）

对1M to📶◻ken的序🍑🇹🇹列，原本需要a⏺ttend 1🌏☃M个token🍢🚗，现在只需要🚁🇸🇩attend🧁 102🏄4个压缩块🇸🇧😼。AI每生成一个词🇲🇻，系统就有一个"🚟打分员"（🍏🈁技术上👨‍👨‍👧称为Critic🇨🇫🎠，批评家🎧）在旁边🚃估算：按照现在这🏵🎰个走势，最终👳‍♀️🧹能答对📅的概率是多少？🇬🇾然后根据这个🗒😐概率，奖↙励或惩罚刚才的📥每一步操⏮🇼🇫作🛑🚍。

研究人员▫指出，预估一🥄🥵道题的难度，根本❔🙏不需要具备👨‍✈️解题能力，就好比🇧🇲🇹🇴一个经验丰富的🇨🇮老师一眼就能判断👕某道题"⏹很多学生会错"，👢即使他自己不亲自🐼去做这👰☪道题🎚😥。过去的♓图像生成模型，🐽🛩本质是🥀“黑箱抽🚽卡”：输入一句英😨文，模型直接🤸‍♀️😿吐出一张❔图↘📻。

实现上用🚉Sinkhor🗾n-Knopp📊迭代，🧙‍♂️🧾交替做行归🍸一化和列🎪🏂归一化，迭代2🛣0次收敛💊🛅。V4-Pro🍒🚍和V4-Fl🗂📁ash，🙍‍♂️1.6🌩万亿参数/28🎲40亿🌱🙁参数，上💖7️⃣下文都是👨‍🍳📥1M🙅‍♂️。