国泰海通:字节推出GR-3模型 泛化性显著提升 建议关注产业链相关标的
智通财经APP获悉,国泰海通发布研报称,7月22日,字节跳动Seed团队发布通用机器人模型GR-3,GR-3模型与GR-2模型(2024.10推出)相比,在面对新环境和新物体时操作性能卓越,复杂指令理解精准度高,具备处理泛化任务的能力。GR-3在泛化性、复杂任务的成功率上比业内头部具身大模型π0显著提升。从字节跳动公开进展看,其具身智能持续迭代发展,暂无明确商业化规划。随着技术进步和产业链成熟,字节具备进行软硬件产品化的可能,且有望在ToC场景积累领先优势,建议关注产业链相关标的。
国泰海通主要观点如下:
字节推出GR-3模型,复杂长任务执行能力较好,泛化性显著提升
7月22日,字节跳动Seed团队发布通用机器人模型GR-3,该模型为VLA架构,具备泛化到新物体和新环境的能力,能理解包含抽象概念的语言指令,还能够精细地操作柔性物体。
GR-3模型与GR-2模型(2024.10推出)相比,在面对新环境和新物体时操作性能卓越,复杂指令理解精准度高,具备处理泛化任务的能力,主要源于:1)模型架构上:GR-3采用MoT+DiT的网络结构,将“视觉-语言模块”和“动作生成模块”集成为40亿参数的端到端模型,生成动作后通过RMSNorm增强动态指令跟随能力,使机器人反应更敏捷、高效;2)训练数据上:GR-3采用三合一数据训练法,遥操作数据(高质量)、人类VR轨迹数据(低成本,可达450条数据/小时),公开图文数据(理解抽象概念、认识新物体以提升泛化能力)。
硬件跟随软件协同创新,同步推出通用双臂移动机器人ByteMini
此前字节Seed团队推出的GR-2模型的硬件本体是一台单臂机器人。为充分发挥GR-3的潜力,字节跳动同步推出了通用双臂移动机器人ByteMini,专为GR-3模型设计的“躯体”具备多项创新特性:1)22个全身自由度与独特手腕球角设计,实现接近人类手腕的灵活转动能力;2)多摄像头协同系统(2手腕摄像头+头部全局视角),确保操作过程中的“眼观六路”;3)全身运动控制(WBC)系统实现平滑轨迹生成,在抓取纸杯等场景中自动调整力度,避免传统机器人的刚性碰撞问题。
GR-3在泛化性、复杂任务的成功率上比业内头部具身大模型π0显著提升
Seed团队在基础环境、新环境、复杂指令、新物品四类场景中测试对比了GR-3和π0,GR-3的任务执行成功了显著提升,经过公开图文数据中积累的“见识”的GR-3在新物品操作的成功率上较π0高出17.8%。特别的,GR-3仅需10条人类轨迹数据即可将新物体操作成功率从60%提升至80%以上。GR-3的高泛化性与复杂任务执行能力可以助力机器人场景落地探索。
风险提示
技术进步及产业化进展不及预期,行业竞争加剧。
1、越保守越安全,懂车帝测试背后,还是“驾驶人不要把命交给概率”
2、中国游客在澳大利亚无端遭袭,中领馆:涉事人员已被警方锁定,中国公民在澳大利亚遇险
3、意法半导体 9.5 亿美元收购恩智浦 MEMS 传感器业务