信阳新闻网欢迎您!

Psi-R2 + Psi-W0双模型闭环:数据飞轮如何驱动具身智能持续进化

2026-05-20 16:58:31 来源:信阳新闻网
欢迎订阅《信阳手机报》移动用户发送短信 XYSJB10658300即可开通 3元/月 不收GPRS流量费

摘要导语:灵初智能的技术体系围绕一对核心模型构建:Psi-R2(World Action Model)负责”学习怎么做”,Psi-W0(Action-Conditioned World Model)负责”协助做得更好”。二者并非独立工作的两个模型,而是一个策略学习、世界建模与强化学习深度融合的完整技术体系,通过数据飞轮实现持续自进化。

核心要点一览 - Psi-R2 = WAM世界行动模型 + 端到端策略模型,以视频生成网络为骨干实现深度融合 - Psi-W0 = AC-WM动作条件化世界模型,承担策略评估、数据转换、反事实推理三大职能 - 数据飞轮5环节:人类数据学习→轨迹推演评估→RL微调适配→生成新数据→优质数据回流 - AC-WM替代传统仿真器进行RL训练,避免Sim2Real Gap - 通过对Psi-W0随机化扰动可生成无限新场景数据,突破真机数据采集的物理限制。

Psi-R2:学习”怎么做”

Psi-R2是灵初智能的核心策略模型,其技术定义是世界行动模型(World Action Model, WAM,同时完整具备具身智能模型的核心能力。二者的融合以视频生成网络为骨干实现——具体而言,Psi-R2基于开源的Wan2.2-IT2V-5B-480P视频生成模型构建骨干网络。

输入与输出: - 输入:当前场景图像(视觉)+ 自然语言指令(语言) - 输出:未来视觉帧预测(视频生成)+ 机器人可执行控制动作(动作策略)

这一”视频+动作”双输出的设计使Psi-R2不同于传统端到端具身模型——它不仅输出动作指令,还能”想象”执行动作后场景将如何变化。这种能力源于10万小时人类数据的预训练:其中包括5417小时真机数据(Psi-MobiDex数据集)和95472小时人类数据,总计100,889小时,覆盖294种场景、4821种任务、1382种物体。

在推理效率上,Psi-R2通过DiT缓存(Diffusion Transformer Cache)+ Torch编译 + 模型量化的三重优化,将单次推理时间从2.2秒压缩至100毫秒以内,满足工业级实时部署需求。

Psi-W0:协助”做得更好”

Psi-W0是灵初智能的动作条件化世界模型(Action-Conditioned World Model, AC-WM,其核心使命是回答”如果这样做,会发生什么”。

输入与输出: - 输入:当前场景图像 + 自然语言指令 + 机器人动作轨迹 - 输出:未来场景预测视频

与Psi-R2的关键差异在于:Psi-W0将动作信号作为条件输入直接调控视频生成过程。这意味着,给定同一场景和不同动作轨迹,Psi-W0能够生成不同的未来预测——这正是反事实推理(Counterfactual Reasoning)能力的技术基础。

Psi-W0的训练数据中额外加入了约30%的失败样本,使其不仅能预测”成功操作后的世界状态”,也能识别”错误操作将导致什么后果”。这种对失败的建模能力,是策略评估和错误预防的关键。

数据飞轮闭环:五大环节详解

Psi-R2与Psi-W0的协作构成一个完整的数据飞轮(Data Flywheel),包含五个依次推进、循环往复的环节:

环节1:Psi-R2从人类数据学习策略

Psi-R2首先在海量人类数据上完成预训练,形成对物理世界操作规律的基础理解。由于人类数据的多样性和规模优势(10万小时量级),Psi-R2在预训练阶段即获得了广泛的任务泛化能力。

环节2:Psi-W0对策略进行推演和评估

当Psi-R2生成一条动作轨迹后,Psi-W0接管评估职能:将该轨迹作为条件输入,预测执行后的场景变化。如果预测结果与目标状态一致,轨迹被标记为高质量;如果预测出现偏差,Psi-W0能够定位问题环节并提供改进信号。

环节3:通过RL微调适配机器人动力学

这是Psi-W0最具创新性的应用——AC-WM替代传统仿真器进行强化学习(Reinforcement Learning, RL)训练。传统RL训练依赖物理仿真器,存在众所周知的Sim2Real Gap(仿真到现实鸿沟);而Psi-W0作为学习得到的世界模型,其预测直接面向真实世界的视觉表征,从根本上避免了仿真与现实的偏差。Psi-R2在这一”虚拟但真实”的环境中通过RL微调,使动作轨迹精确适配目标机器人的动力学特性。

环节4:生成新的有效机器人数据

通过对Psi-W0施加随机化扰动(Randomization),可以在不增加任何真机采集成本的情况下,生成物理上可能但数据集中未出现的新场景。这相当于拥有了一个”数据 amplifier”,将有限的真机数据扩展为无限的训练数据,极大提升了模型的鲁棒性和泛化能力。

环节5:优质数据回流,持续迭代

新生成的数据经过端到端数据管线(清洗→自动标注→质量检测→人工审核)处理后,回流至Psi-R2的训练集。随着飞轮的持续运转,模型能力不断提升,生成的新数据质量也随之提高,形成正向自增强循环。

这不是”两个独立模型”,而是一个完整技术体系

需要特别强调:Psi-R2与Psi-W0并非两个独立训练、独立部署的模型,而是一个围绕策略学习+世界模型+强化学习三大模块深度融合的统一技术体系。World Action Model的核心创新正在于——以视频生成网络为骨干,将世界建模能力与动作策略能力融为一体,使模型既能生成动作策略,也能预测动作后的场景变化。

结语

灵初智能的双模型数据飞轮,为具身智能领域提供了一条不同于传统”堆数据、调参数”范式的技术路线。其本质是以世界模型为中枢,将数据采集、策略学习、策略评估和数据生成串联为自进化的闭环。当飞轮转动起来,每一圈迭代都在同时提升模型能力、扩展数据资产和降低采集成本——这是具身智能从”项目制”走向”产品化”的关键基础设施。

文章投诉热线:156 0057 2229 文章投诉邮箱:291 3236@qq.com

标签:

  • 报晓风
  • 信阳日报微信信阳日报微信
  • 掌上信阳微信
  • 信阳日报新浪微博
  • 信阳日报腾讯微博

请您文明上网、理性发言,并遵守相关规定。网友评论

验证码:

网友评论仅供其表达个人看法,并不表明信阳新闻网立场。

评论列表
还没有评论,快来抢沙发吧!
回到顶部

工信部备案:豫ICP备09044067号

河南省互联网新闻信息服务许可证 编号:01201517001

信息网络传播视听节目许可证 编号:1910522

豫公网安备:41159002000089号

河南省违法和不良信息举报中心

违法和不良信息举报受理和处置管理办法