谷歌工具

滚动播报 2026-05-05 02:48:28

（来源：上观新闻）

发现三：模型➰🏅之间“能效比🏃‍♀️👏”天差地🏮别——🎣✅GPT-5 🤼‍♂️谷歌工具最省，有的模型多🇨🇨烧 150 🗡万 Token🏰 论文🚹在业界标🔊准的 SWE-b🖌enc👐h V😛💨erified👍🇸🇮（500 🎽🖱个真实🍰 GitH⏳🥜ub I🤭ssue）上，🔝测试了4️⃣ 8 个🍫前沿大模型的👚🛸 Agent 表🚉🇦🇨现👩‍🎓🗃。某些VLM数🦶🇬🇩据源——🎞比如专注于空间指🏃‍♀️🔘代推理的Ref🇲🇫Spatial🥨数据集🦀——与机器👨‍🍳人数据的◾🧝‍♂️距离，明显🛷比纯图文✏描述数🉐据更近🐭🈁。封面新闻记📜者边雪天府👈🕡沃野，智慧🗑🦒愈浓🦚🤔。比如当被问🅾🎾到哪条河🇻🇮🐐流在北卡罗来纳州🇴🇲戈尔兹伯勒🚴⬛市的西侧时，AI🥋🌞 Overv🔛🌏iew 回答👨‍👩‍👦‍👦🙉说是尼斯河💾👸（Neus👧e River💊🈸）👨‍🎓⚽。关于多样性的🏎🌠保持，研究🐜🇻🇦团队用一个叫做均🤜🛃匀性指标的工具🥟（基于特征空间中🗿🇴🇲样本对之间距离🏳️‍🌈👙的统计，👺分数越高表示🥫🌾数据分布🚩越均匀🇦🇸🕔、越多样）进行了🔥量化🎵。

现在的↪🇲🇭 Goo🛄🦟gle 👩‍🔧搜索要做一👨‍✈️个「答🌩👄案机器」，直接告🇪🇬诉你答案是什么，🅰💓而且放在最显眼🌪的位，但💟这个「答案」的数🛁据来源包括 🕝Facebook✉ 帖子和旅游博🇦🇩🇸🇦谷歌工具客，有超过一半的🚾正确回答无法被验📠👨‍🎤证，而且任何人📎🇨🇱只要写一篇博客🎈就能操纵它的输出🈳。” 在😷☑技术创🇪🇬新上，中达🚐🇨🇲福瑞还🎪😧推出了👨‍🏫将2个🔛、3个🇬🇭🏨甚至5个功能♈集成在一把器械上🛤的产品👩🐩。其实曹雪芹写林黛🏈玉，很多意💬象都脱🥴🇹🇯胎于唐伯🇰🇷👨虎，包括《葬花吟🕕》里面扛👍着花锄去锄花🛷⛴，这个事其🚴‍♀️🕗实就是唐伯虎🏫😙做的7️⃣📔。为什么会💰这样？论文🤵指出了🤫😿一个事实——钱不➰🔞是花在“写代码🏃”上，而是🌠花在“读代码”上🚣‍♀️🇻🇮。研究者🚑让同一个 Age🗒🇹🇻nt 在同一个🌺🖥任务上跑了🎰 4 🇵🇰✒次，结果发现：👨‍❤️‍💋‍👨 在不🥜同任务🐣之间，最贵的任务🏥比最便🔆宜的任务多👣🇦🇼烧约 700 💍🇻🇪万个 Tok🚵‍♀️🇬🇮en（Fi🥃🌉gure🔋🇩🇲 2a）在♍✊同一模🐶🇹🇿型、同一任务的多🍈🍘次运行中，最贵🐠的一次大约是最🥜便宜的一次的 🕵️‍♀️📂2 倍（🇲🇻Figu🐌🧝‍♂️re 🆎2b）而如👩‍⚕️🔜果跨模型对🤟比同一🐗个任务，最高消耗🛍和最低⛳🔚谷歌工具消耗之间可🚷🈚以相差🔎高达 30 倍 🈸2️⃣最后一个数字尤其🛶♻值得关注：这意🌇味着，选对模型和🧾选错模型之间👺的成本差📯距，不是🇨🇰“贵一点”，而是🕵🇻🇳“贵出一个数💇‍♂️量级”🖌🕗。