泛

滚动播报 2026-04-25 17:00:52

（来源：上观新闻）

在1.5B规模👨‍🎨🗼（15亿参数🥊）的模型上，标🦉准PP⚛O的综合平均分是👠44.06，🇪🇦🇦🇼甚至低于未经🍣训练的基🕹🇺🇸础模型（44.9👬🍎6）🚭。它的设计🌽思路，很像当年🏖苹果M👨‍🎤💆‍♂️1芯片的统一🤕内存架🚣‍♀️♏构🥜。结果显示，4🇹🇿🇨🇩层是一个🔨甜蜜点—📥—既足够深以捕捉🏘🍪复杂的跨图像区🚬🐁域对应关🥼系，又不会因层数🇬🇹👩‍👩‍👧过多而导致过拟合💬🌸或训练困难🇸🇽。

现在，马斯克准备🕌🤺将SpaceX🦄🇳🇦上市，这很可🇪🇭🌽能成为史上最大♎🌸规模的🇨🇵首次公开招股🤯(IPO)🥏➰之一，他将需😥要向华尔街及其🐣🇻🇪他投资者负责🇪🇦😄。但在实际使用中🤶，这一过程高😣度依赖模型判断🇨🇼👨‍👦‍👦。因为人的需求，从🇷🇼来不只是“把事情🇷🇺做完”🇮🇪🤖。

笔者通过🏁对公司创始2️⃣🇬🇾人兼首席科学家孙🛅立宁院士、董事🧶长成锐先生、🛹🚞CTO禹鑫燚博😐士的系列对话🎊，试图解码其🕔🌶如何通过技术🐺🇦🇲远见、商业谋略➡与产品落地的三🇯🇲位一体，系🇬🇼🌥统性地破解具身智📮能规模化落地的🇲🇷🤖“最后一🐋公里”难题🌇。对比V3仅用🖨🆒14.8T To🚐🕐ken训练🇹🇷⛲，V4👅🉑-Fl🇲🇬😀ash 与 V⬆👨‍👩‍👧‍👧4-Pro 的🇬🇲🐸数据消耗量分🐸🇧🇸别达到了32T↙和33T🌚💹。