火端泛站

滚动播报 2026-05-05 00:59:10

（来源：上观新闻）

发现二：同一个 🙀👳‍♀️Bug，跑🔈两次，花费能差一🎰🇬🇪倍——而且越贵的🧫 Bug 越不稳🤯定更让人📧👢头疼的是随机🦄性🗳。而且，即便回答💧本身是正确的，也◾👨‍👦不代表🏃你能逆向查🥝验👀。结果显示，🐍不仅状态稳💎🆒定、可重🔤🆖复，还能用反向电🥭压脉冲进行擦除🇧🇼。发现三🙂🇸🇩：模型🐉🛴之间“能效🇱🇻🗒比”天差地🗒别——🍑GPT-5 最🍜省，有👨‍🦱的模型多烧📧 150 万 🔦Token 论🇸🇭文在业界标准的 🙍SWE-b0️⃣ench V🛤✒eri🕘fied🤷‍♂️🌞（50🎍🍻0 个🇾🇪⛸真实 G🇿🇼🌋itHu🤲b Iss⏬🎮ue）上，测🤫ℹ试了 8 个▫前沿大👙模型的🎁火端泛站 Agent🎯 表现🇦🇼。

图丨刘胜院士（🔝🇲🇷左）指导💧孙海定🇸🇭（来源：受访者）🍩▪ “我在📲🍧本科和硕士期间🇱🇨学习的▪时候，导🃏🔠师刘胜🏴院士就经常告诉👨‍👩‍👦‍👦我不能只会发📍论文，这句话我🇸🇰一直铭记于心🔰。Goo🦢🈵gle（包括大部🛍分的 🎓AI 产品✌🚡）都在🌲每一条 🏔AI Ov🌂📃erv👡iew 下方🙇‍♀️🥖加了一🧸🇺🇦行小字：「AI 📛可能会🤘犯错，请⏺🦅双重检查🚖。研究者把🙂所有模🇻🇨型都成功⛹😶解决的任务（↕230 个）和🏒🤚所有模型都失败👱‍♀️的任务（🏺100🇸🇹 个）分🖨👏别拿出来🎎比较，发现👬模型的👩‍👧*️⃣相对排名几乎没🍂🗨有变化♥🧞‍♂️。没有强制流🌍💪程，没有🐯🚟规定时间，🎇随时可以🇾🇹退出🥜。