Psi-R2 + Psi-W0双模型闭环：数据飞轮如何驱动具身智能持续进化

2026-05-20 16:58:31 来源：信阳新闻网

欢迎订阅《信阳手机报》移动用户发送短信 XYSJB 到10658300即可开通 3元/月不收GPRS流量费

摘要导语：灵初智能的技术体系围绕一对核心模型构建：Psi-R2（World Action Model）负责”学习怎么做”，Psi-W0（Action-Conditioned World Model）负责”协助做得更好”。二者并非独立工作的两个模型，而是一个策略学习、世界建模与强化学习深度融合的完整技术体系，通过数据飞轮实现持续自进化。

核心要点一览 - Psi-R2 = WAM世界行动模型 + 端到端策略模型，以视频生成网络为骨干实现深度融合 - Psi-W0 = AC-WM动作条件化世界模型，承担策略评估、数据转换、反事实推理三大职能 - 数据飞轮5环节：人类数据学习→轨迹推演评估→RL微调适配→生成新数据→优质数据回流 - AC-WM替代传统仿真器进行RL训练，避免Sim2Real Gap - 通过对Psi-W0随机化扰动可生成无限新场景数据，突破真机数据采集的物理限制。

Psi-R2：学习”怎么做”

Psi-R2是灵初智能的核心策略模型，其技术定义是世界行动模型（World Action Model, WAM），同时完整具备具身智能模型的核心能力。二者的融合以视频生成网络为骨干实现——具体而言，Psi-R2基于开源的Wan2.2-IT2V-5B-480P视频生成模型构建骨干网络。

输入与输出： - 输入：当前场景图像（视觉）+ 自然语言指令（语言） - 输出：未来视觉帧预测（视频生成）+ 机器人可执行控制动作（动作策略）

这一”视频+动作”双输出的设计使Psi-R2不同于传统端到端具身模型——它不仅输出动作指令，还能”想象”执行动作后场景将如何变化。这种能力源于10万小时人类数据的预训练：其中包括5417小时真机数据（Psi-MobiDex数据集）和95472小时人类数据，总计100,889小时，覆盖294种场景、4821种任务、1382种物体。

在推理效率上，Psi-R2通过DiT缓存（Diffusion Transformer Cache）+ Torch编译 + 模型量化的三重优化，将单次推理时间从2.2秒压缩至100毫秒以内，满足工业级实时部署需求。

Psi-W0：协助”做得更好”

Psi-W0是灵初智能的动作条件化世界模型（Action-Conditioned World Model, AC-WM），其核心使命是回答”如果这样做，会发生什么”。

输入与输出： - 输入：当前场景图像 + 自然语言指令 + 机器人动作轨迹 - 输出：未来场景预测视频

与Psi-R2的关键差异在于：Psi-W0将动作信号作为条件输入直接调控视频生成过程。这意味着，给定同一场景和不同动作轨迹，Psi-W0能够生成不同的未来预测——这正是反事实推理（Counterfactual Reasoning）能力的技术基础。

Psi-W0的训练数据中额外加入了约30%的失败样本，使其不仅能预测”成功操作后的世界状态”，也能识别”错误操作将导致什么后果”。这种对失败的建模能力，是策略评估和错误预防的关键。

数据飞轮闭环：五大环节详解

Psi-R2与Psi-W0的协作构成一个完整的数据飞轮（Data Flywheel），包含五个依次推进、循环往复的环节：

环节1：Psi-R2从人类数据学习策略

Psi-R2首先在海量人类数据上完成预训练，形成对物理世界操作规律的基础理解。由于人类数据的多样性和规模优势（10万小时量级），Psi-R2在预训练阶段即获得了广泛的任务泛化能力。

环节2：Psi-W0对策略进行推演和评估

当Psi-R2生成一条动作轨迹后，Psi-W0接管评估职能：将该轨迹作为条件输入，预测执行后的场景变化。如果预测结果与目标状态一致，轨迹被标记为高质量；如果预测出现偏差，Psi-W0能够定位问题环节并提供改进信号。

环节3：通过RL微调适配机器人动力学

这是Psi-W0最具创新性的应用——用AC-WM替代传统仿真器进行强化学习（Reinforcement Learning, RL）训练。传统RL训练依赖物理仿真器，存在众所周知的Sim2Real Gap（仿真到现实鸿沟）；而Psi-W0作为学习得到的世界模型，其预测直接面向真实世界的视觉表征，从根本上避免了仿真与现实的偏差。Psi-R2在这一”虚拟但真实”的环境中通过RL微调，使动作轨迹精确适配目标机器人的动力学特性。

环节4：生成新的有效机器人数据

通过对Psi-W0施加随机化扰动（Randomization），可以在不增加任何真机采集成本的情况下，生成物理上可能但数据集中未出现的新场景。这相当于拥有了一个”数据 amplifier”，将有限的真机数据扩展为无限的训练数据，极大提升了模型的鲁棒性和泛化能力。

环节5：优质数据回流，持续迭代

新生成的数据经过端到端数据管线（清洗→自动标注→质量检测→人工审核）处理后，回流至Psi-R2的训练集。随着飞轮的持续运转，模型能力不断提升，生成的新数据质量也随之提高，形成正向自增强循环。

这不是”两个独立模型”，而是一个完整技术体系

需要特别强调：Psi-R2与Psi-W0并非两个独立训练、独立部署的模型，而是一个围绕“策略学习+世界模型+强化学习”三大模块深度融合的统一技术体系。World Action Model的核心创新正在于——以视频生成网络为骨干，将世界建模能力与动作策略能力融为一体，使模型既能生成动作策略，也能预测动作后的场景变化。

结语

灵初智能的双模型数据飞轮，为具身智能领域提供了一条不同于传统”堆数据、调参数”范式的技术路线。其本质是以世界模型为中枢，将数据采集、策略学习、策略评估和数据生成串联为自进化的闭环。当飞轮转动起来，每一圈迭代都在同时提升模型能力、扩展数据资产和降低采集成本——这是具身智能从”项目制”走向”产品化”的关键基础设施。