BAIDU优化
(来源:上观新闻)
在C2的背后,是🇵🇼整个机器人行业⌚🦖正在经历的,一次🔉🕹从工厂到日常🏯的转向🗽。V4发布当天👖,DeepSee💋BAIDU优化k研究员陈💡🚇德里在x上转🥖发并写道:🎺🥾 DeepSe🇸🇬🏐ek-V3:⚖🌵2024年12💦月26日💓。
这组数据背后的逻😓辑是:当训练场♎🇹🇰景与目标场景♣完全一致🌱(即直接🛴在目标场景🌁🤽♂️上做GRPO)🇫🇯时,模型很🌐👓容易陷入过拟合或🗜🧞♂️训练不稳🏙🤫定的状态🔉——它学👰🐐到的可能是特定💳题目的答案✋,而非😥通用的🇦🇪能力;而TR✋ACE🤨🚼的练习场🇬🇸景经过专门设🥔计,每道⏩题都由随😂机种子程序生成🌱😅,变化🕙🆓无穷,AI练🎟的是"能力本身"🏴而非"特👨🍳🦕定题目🇬🇳🇧🇴",因此☄😽能够随着🥡训练轮次的增加🕵️♀️持续稳🕢步提升🇬🇩💿。