腾讯混元推出全球模型强化学习后训练框架 – 新京报 – 吃瓜网暗黑爆料免费版，揭秘内幕不花一分钱！

新京报贝壳财经讯（记者魏英姿）3月10日，腾讯混元3D团队宣布推出业界首个开源的世界模型训练后强化学习框架WorldCompass。腾讯混元3D团队表示，这是之前发布的混元世界模型1.5的官方强化学习扩展模块，可以让世界模型交互更加精准，提供更好的体验。腾讯混元3D团队认为，现有的生成世界模型（如WorldPlay）在预训练阶段主要依靠像素级的监控。这种学习方法往往会导致模型无法理解复杂的动作指令组合，从而导致图像质量不佳以及长距离漫游时的路径偏差。随后团队腾讯的混元推出了WorldCompass。它是一个强化学习（RL）后训练框架，专为长期交互式世界模型而设计。通过引入强化物通过学习机制，模型通过遵循用户的指令并保持长期的视觉连贯性来“引导”更准确地探索世界。腾讯在浑源的实验数据表明，WorldCompass可以提高开源SOTA世界模型（WorldPlay）的交互精度和视觉保真度。在复杂组合的动作场景中，交互准确率提高了近35%。刘军遮瑕膏

腾讯混元推出全球模型强化学习后训练框架 – 新京报

推荐文章

其他新闻|北京向大雨发行红色警报，除非需要公民，否则他们将不会离开 – 北京新闻

国家林业和药丸政府宣布了潘吉安岛国家自然保护区的区域，范围和功能部 – 北京新闻

茅台对马年茅台星座的回应是“昴”写成“安”。这不是茅台酒第一次印刷错误 – 新京报

发表评论取消回复

推荐文章

发表评论 取消回复

发表评论取消回复