泛目录

滚动播报 2026-04-25 17:48:49

（来源：上观新闻）

而Hermes有🕵️‍♀️些太‘自作聪明’🧒了，不管什🌑么事它都会自🇩🇯🦝动生成一♒堆技能，🧕🛷我的Skill会🦘🏇泛目录越来越多，且很🍗🔚冗余，有些东西🐞根本没有必要🔍🏬。而这，正✍是具身智能♐🆙这几年开始在🤣🇧🇸尝试的事🦷🇨🇬情🧦。这意味着，演🇵🇸🙅‍♂️员未来🥡🧁无需肉🏈🐰身拍戏，只🇧🇶需向平台⬆物理意义上出卖🕊🕉自己的🤟脸，就能在家🎸⏰躺着数钱🔎🇪🇸。

这种数据像“牛奶🛑”，有营养，但难🇹🇱🥔采集😲0️⃣。这种探索工🥬🕝作是浪👍😢费的，不必要地🈴消耗了令牌，而如🦄果模型🏆对架构和🇵🇾👨‍🍳工程有更深入😲🇨🇦的理解，这些浪费🤳☘是可以🏸🇳🇵避免的💇。训练方式是一种⛹️‍♀️🐅叫做GRPO📭的强化学习🇪🇹🏃算法：AI🇺🇬❗在练习场景中🏟一次生成多个不👩‍🍳同的答案，系🛳统根据每个答🇦🇹🙇案的好☑🏃‍♀️坏给出分数，然后🇴🇲🔽通过对比组内分⌚数的高低来计算🦎🇦🇺每个答案♾️🙇应该被强化还是削🌈⬜弱☔。

“虽然最开🇲🇱始使用Herm🏄‍♀️es的几次对话，🏖🚞跟OpenC🇹🇨🍰law的Tok👹🐪en消耗量差不多👩‍🌾，但越🇨🇲往后聊，会☝发现Her🎫🖐mes消耗的T🕟oken反💖⚠而会少一些🏺📭。他们的理🤜⛹️‍♀️由是，V4的🛴注意力架构允许直🐪接对que👩‍🔧ry和KV做🖐🇲🇰RMSN💯orm，从源头把🔞爆炸的可能🇲🇳☢压住了🤩🏖。流程分两步🚎🍻。