腾讯混元推出全球模型强化学习后训练框架 – 新京报

新京报贝壳财经讯(记者 魏英姿)3月10日,腾讯混元3D团队宣布推出业界首个开源的世界模型训练后强化学习框架WorldCompass。腾讯混元3D团队表示,这是之前发布的混元世界模型1.5的官方强化学习扩展模块,可以让世界模型交互更加精准,提供更好的体验。腾讯混元3D团队认为,现有的生成世界模型(如WorldPlay)在预训练阶段主要依靠像素级的监控。这种学习方法往往会导致模型无法理解复杂的动作指令组合,从而导致图像质量不佳以及长距离漫游时的路径偏差。随后团队腾讯的混元推出了WorldCompass。它是一个强化学习(RL)后训练框架,专为长期交互式世界模型而设计。通过引入强化物通过学习机制,模型通过遵循用户的指令并保持长期的视觉连贯性来“引导”更准确地探索世界。腾讯在浑源的实验数据表明,WorldCompass可以提高开源SOTA世界模型(WorldPlay)的交互精度和视觉保真度。在复杂组合的动作场景中,交互准确率提高了近35%。刘军遮瑕膏

推荐文章

发表评论

邮箱地址不会被公开。 必填项已用*标注