火端泛站
(来源:上观新闻)
发现二:同一个 🙀👳♀️Bug,跑🔈两次,花费能差一🎰🇬🇪倍——而且越贵的🧫 Bug 越不稳🤯定 更让人📧👢头疼的是随机🦄性🗳。而且,即便回答💧本身是正确的,也◾👨👦不代表🏃你能逆向查🥝验👀。结果显示,🐍不仅状态稳💎🆒定、可重🔤🆖复,还能用反向电🥭压脉冲进行擦除🇧🇼。发现三🙂🇸🇩:模型🐉🛴之间“能效🇱🇻🗒比”天差地🗒别——🍑GPT-5 最🍜省,有👨🦱的模型多烧📧 150 万 🔦Token 论🇸🇭文在业界标准的 🙍SWE-b0️⃣ench V🛤✒eri🕘fied🤷♂️🌞(50🎍🍻0 个🇾🇪⛸真实 G🇿🇼🌋itHu🤲b Iss⏬🎮ue)上,测🤫ℹ试了 8 个▫前沿大👙模型的🎁火端泛站 Agent🎯 表现🇦🇼。
图丨刘胜院士(🔝🇲🇷左)指导💧孙海定🇸🇭(来源:受访者)🍩▪ “我在📲🍧本科和硕士期间🇱🇨学习的▪时候,导🃏🔠师刘胜🏴院士就经常告诉👨👩👦👦我不能只会发📍论文,这句话我🇸🇰一直铭记于心🔰。Goo🦢🈵gle(包括大部🛍分的 🎓AI 产品✌🚡)都在🌲每一条 🏔AI Ov🌂📃erv👡iew 下方🙇♀️🥖加了一🧸🇺🇦行小字:「AI 📛可能会🤘犯错,请⏺🦅双重检查🚖。研究者把🙂所有模🇻🇨型都成功⛹😶解决的任务(↕230 个)和🏒🤚所有模型都失败👱♀️的任务(🏺100🇸🇹 个)分🖨👏别拿出来🎎比较,发现👬模型的👩👧*️⃣相对排名几乎没🍂🗨有变化♥🧞♂️。没有强制流🌍💪程,没有🐯🚟规定时间,🎇随时可以🇾🇹退出🥜。