智元机器人在世界人工智能大会(WAIC 2025)上正式发布行业首个动作驱动世界模型开源平台——Genie Envisioner(GE),标志着具身智能领域迈入全新发展阶段。这一突破性平台通过“视频生成+策略学习+仿真评估”的闭环架构,重新定义了机器人从感知到执行的全流程能力。
技术革新:三核心组件构建闭环架构
Genie Envisioner的创新性体现在三大核心组件的深度整合:
GE-Base世界基础模型:基于百万级真实世界操作数据集(AgiBot-World-Beta)训练,能够精准捕捉机器人交互的空间、时间与语义动态特征,实现高保真视频生成与场景理解;
GE-Act动作解码器:通过1.6亿参数的流匹配架构,将潜空间表征转化为可执行动作轨迹,支持毫秒级实时响应(<10ms延迟),在折叠纸盒等复杂任务中达成76%成功率,远超传统模型;
GE-Sim神经模拟器:构建动作条件化视频生成环境,支持闭环策略评估与低成本数据生成,显著降低物理世界测试成本。
行业影响:开源生态重塑研发范式
该平台的开源策略(GPLv3协议)对具身智能产业产生深远影响:
降低创新门槛:开发者可直接调用预训练模型,避免从零构建算法框架,中小团队也能快速验证创意;
加速技术迭代:通过共享数据集与工具链,跨机构协作成为可能,例如商汤科技基于GE框架推出“悟能”平台,实现仿真数据利用率提升70%;
推动标准建设:配套发布的EWMBench评测套件,为行业提供了视觉真实度、物理一致性等量化指标,促进技术 benchmark 统一。
未来展望:构建具身智能操作系统的“安卓生态”
智元机器人同步启动“智元灵渠OS”开源计划,目标打造具身智能领域的标准化操作系统。该系统以分层架构整合硬件抽象层(AimRT中间件)、智能体服务框架与全链路工具链,计划于2025年第四季度开放核心模块。结合宁波具身智能产业基地的落地,智元正构建“数据采集-模型训练-硬件制造”的完整生态,预计年产1000台具身机器人,覆盖工业、文旅、能源等多场景。
从实验室到产业化,Genie Envisioner的开源不仅为机器人装上了“物理世界的眼睛”,更通过开放协作模式,为具身智能的规模化应用按下加速键。当世界模型遇上开源生态,一场属于机器人的“认知”已悄然启幕。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。