谷歌工具
(来源:上观新闻)
发现三:模型➰🏅之间“能效比🏃♀️👏”天差地🏮别——🎣✅GPT-5 🤼♂️谷歌工具最省,有的模型多🇨🇨烧 150 🗡万 Token🏰 论文🚹在业界标🔊准的 SWE-b🖌enc👐h V😛💨erified👍🇸🇮(500 🎽🖱个真实🍰 GitH⏳🥜ub I🤭ssue)上,🔝测试了4️⃣ 8 个🍫前沿大模型的👚🛸 Agent 表🚉🇦🇨现👩🎓🗃。某些VLM数🦶🇬🇩据源——🎞比如专注于空间指🏃♀️🔘代推理的Ref🇲🇫Spatial🥨数据集🦀——与机器👨🍳人数据的◾🧝♂️距离,明显🛷比纯图文✏描述数🉐据更近🐭🈁。封面新闻记📜者 边雪 天府👈🕡沃野,智慧🗑🦒愈浓🦚🤔。比如当被问🅾🎾到哪条河🇻🇮🐐流在北卡罗来纳州🇴🇲戈尔兹伯勒🚴⬛市的西侧时,AI🥋🌞 Overv🔛🌏iew 回答👨👩👦👦🙉说是尼斯河💾👸(Neus👧e River💊🈸)👨🎓⚽。关于多样性的🏎🌠保持,研究🐜🇻🇦团队用一个叫做均🤜🛃匀性指标的工具🥟(基于特征空间中🗿🇴🇲样本对之间距离🏳️🌈👙的统计,👺分数越高表示🥫🌾数据分布🚩越均匀🇦🇸🕔、越多样)进行了🔥量化🎵。
现在的↪🇲🇭 Goo🛄🦟gle 👩🔧搜索要做一👨✈️个「答🌩👄案机器」,直接告🇪🇬诉你答案是什么,🅰💓而且放在最显眼🌪的位,但💟这个「答案」的数🛁据来源包括 🕝Facebook✉ 帖子和旅游博🇦🇩🇸🇦谷歌工具客,有超过一半的🚾正确回答无法被验📠👨🎤证,而且任何人📎🇨🇱只要写一篇博客🎈就能操纵它的输出🈳。” 在😷☑技术创🇪🇬新上,中达🚐🇨🇲福瑞还🎪😧推出了👨🏫将2个🔛、3个🇬🇭🏨甚至5个功能♈集成在一把器械上🛤的产品👩🐩。其实曹雪芹写林黛🏈玉,很多意💬象都脱🥴🇹🇯胎于唐伯🇰🇷👨虎,包括《葬花吟🕕》里面扛👍着花锄去锄花🛷⛴,这个事其🚴♀️🕗实就是唐伯虎🏫😙做的7️⃣📔。为什么会💰这样?论文🤵指出了🤫😿一个事实——钱不➰🔞是花在“写代码🏃”上,而是🌠花在“读代码”上🚣♀️🇻🇮。研究者🚑让同一个 Age🗒🇹🇻nt 在同一个🌺🖥任务上跑了🎰 4 🇵🇰✒次,结果发现:👨❤️💋👨 在不🥜同任务🐣之间,最贵的任务🏥比最便🔆宜的任务多👣🇦🇼烧约 700 💍🇻🇪万个 Tok🚵♀️🇬🇮en(Fi🥃🌉gure🔋🇩🇲 2a) 在♍✊同一模🐶🇹🇿型、同一任务的多🍈🍘次运行中,最贵🐠的一次大约是最🥜便宜的一次的 🕵️♀️📂2 倍(🇲🇻Figu🐌🧝♂️re 🆎2b) 而如👩⚕️🔜果跨模型对🤟比同一🐗个任务,最高消耗🛍和最低⛳🔚谷歌工具消耗之间可🚷🈚以相差🔎高达 30 倍 🈸2️⃣最后一个数字尤其🛶♻值得关注:这意🌇味着,选对模型和🧾选错模型之间👺的成本差📯距,不是🇨🇰“贵一点”,而是🕵🇻🇳“贵出一个数💇♂️量级”🖌🕗。