
2026-07-01
《长安的荔枝》这个故事,讲述了如何将易变质的荔枝从岭南运往长安,需要克服保鲜、驿站、路线和补给等一系列复杂挑战。清华大学人工智能学院助理教授李一鸣认为,这个故事与当前“世界模型”领域的发展有着异曲同工之处。他指出,Physical AI(物理AI)所要解决的问题,如同将“鲜荔枝”安全送达,这需要一个包含数据采集、模型研发和硬件部署的完整系统。
李一鸣在接受《智能涌现》采访时表示,世界模型的核心在于解决实际问题,而非单纯的技术路线。他将世界模型比作“运送荔枝的马”,其价值在于与其他环节的协同配合。尽管如此,他在2026年初回国时,发现AI领域普遍存在对“世界模型”的过度追捧(FOMO)。
“世界模型”在2026年初被视为一个定义模糊、派系众多的概念,也因此被认为是当前估值泡沫最大的赛道之一。任何与仿真、物理相关的技术,如视频模型、3D模型或VLA(视觉-语言-行动)具身大脑,都试图归入“世界模型”的范畴。李一鸣认为,与其纠结于“世界模型”的定义,不如专注于构建一套能够让机器人在各种场景下泛化的系统。
为此,李一鸣团队提出了“Physical AI Infra”,这是一个由数据和物理双轮驱动的系统,包含两个核心自研组件:
- 数据管线:旨在将数据采集规模从行业平均的几十万小时提升至百万甚至千万小时级别。
- 物理引擎:实现“Real-to-Sim-Real”的闭环,即基于真实世界数据构建仿真环境,用于机器人进行物理世界的强化学习,最终在真实世界中执行任务。
“世界模型”在这套系统中扮演着重要角色,既作为预训练的目标,也作为机器人进行强化学习的仿真环境。该基础设施能够支持切割、旋拧、搅拌、按压等精细操作技能的训练,并能跨不同类型的灵巧手和机械臂部署,适用于生产制造、零售服务、酒店运营、餐饮备料、医疗辅助等多种场景。
采用这套技术方案的初创公司“厘清智能”,由李一鸣团队支持,于2026年4月成立。成立仅两个月,该公司就完成了多轮融资。据《智能涌现》独家获悉,厘清智能的种子轮融资额高达数亿元,投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等机构,以及智元机器人、灵心巧手、世纪金源等多方产业资本。
厘清智能受到资本青睐的原因在于其稀缺性。一方面,李一鸣拥有横跨空间感知、多模态推理、自动驾驶和具身智能的复合型背景,是稀缺的软硬一体人才。他在纽约大学攻读博士期间,与AMI Labs的联合创始人兼首席科学家谢赛宁合作发表了具身视觉推理的研究成果,并与英伟达联合发表了多篇重要论文。厘清智能的50余名成员大多为清华学生,平均年龄23岁。
另一方面,厘清智能选择了“重”的技术路线,即从数据采集到模型训练再到物理引擎,实现全栈自研。李一鸣认为,打通所有环节是实现信息畅通和协同优化的关键。他计划在2026年底前发布适用于B端场景的世界模型,并于2028年实现解决方案的规模化落地,最终为客户提供一套跨本体、跨场景的软硬一体解决方案。
在与《智能涌现》的对话中,李一鸣阐述了其对Physical AI和世界模型的看法:
Physical AI 公司,不只是本体或模型公司
李一鸣强调,厘清智能并非一家单纯的世界模型公司,而是致力于构建一套以解决实际问题为导向的系统。世界模型的训练目的是为了解决Physical AI的问题,从而提升任务成功率。因此,公司关注的是如何将数据、模型、硬件和基础设施整合为能在实际场景中运作的系统。他们构建的是一套数据与物理双轮驱动的生态系统,“世界模型”渗透于预训练和后训练的各个环节。
新一代的Physical AI团队核心特点是“全栈”,即从数据采集设备、数据管线、可微物理引擎到模型训练,全部自主研发。这包括自研触觉手套以降低数据采集成本,实现规模化;自研可微物理引擎以实现“Real-to-Sim-Real”闭环,支持复杂材质的建模和高效的强化学习后训练;以及自研的世界模型操作系统,以实现跨场景泛化和跨本体部署。
他认为,新时代的具身公司应定位为“World Model as Service”,未来随着数据积累,能够实现快速的跨本体泛化,并交付软硬一体的系统解决方案,根据场景和预算自动匹配最优硬件,实现开箱即用。
Physical AI的人才画像是“软硬一体”,而目前这类人才非常稀缺。李一鸣提到清华大学提供了良好的人才平台,团队成员年轻且富有潜力。
不能只依赖数据采集,忽视物理规律
李一鸣认为,具身模型的参数量需要达到甚至超过语言模型,才有可能实现“智能涌现”。语言是压缩过的世界规则,而基于自然信号训练的具身模型需要更多数据和参数。
他提出“人类数据比真机数据更好scale up”,因为大规模的人群比大规模的机器更容易扩展数据采集。目前已与工厂、酒店、物业、商场、厨房等场景方合作,以快速积累数据。
李一鸣强调,仅仅依靠数据采集来构建Physical AI Infra是不现实的,还需要融入物理规律。物理规律(如牛顿定律)具有通用性,可以弥补数据在泛化性上的不足。厘清智能设计了一套满足物理约束的世界模型方案,能够利用少量真实数据“校准”世界模型,显著减少机器人学习所需真实数据的量。例如,机器人学习切苹果,只需真实切十次,其余练习可在物理世界模型中完成。
VLA、视频模型、JEPA并非“原生世界模型”
李一鸣区分了世界模型与语言模型,认为前者负责机器与世界的交互,后者负责机器与人的交互。他指出,基于LLM的VLM和VLA模型与物理世界适配性不强,因为语言是高度离散化的空间,充满偏见且无法描述所有事物。语言的本质是交流,是人机交互的界面,而非观察世界的模态。
世界模型的训练需要SFT(监督微调)和RL(强化学习)结合。由于物理数据量不足,需要自采数据并建立标准。与LLM不同,世界模型必须遵守物理规律,因此他们自研了可微物理引擎,确保后训练在物理约束下进行。世界模型的训练是一个系统工程,需要联合预训练、后训练以及数据和硬件基础设施,以最大化训练效益。
他定义“原生世界模型”为全栈打通感知、推理、决策、动作输出,并且是面向机器与世界交互任务设计的。VLA因其离散的语言表征而非真实世界,JEPA因只能预测状态而无法输出动作,视频生成模型因推理过程非原生且难以保证几何物理一致性,均不属于原生世界模型。
训练“原生世界模型”的关键在于高效地将物理世界进行“tokenization”(表征)。多模态观测(视觉、触觉、力觉)如何被压缩成模型可理解的Token序列,直接决定了模型的理解能力。李一鸣表示,厘清智能是全球少数能够高效进行表征端tokenization的公司,其视觉tokenizer效果已优于Meta的DINOv3。
构建Physical AI Infra是训练世界模型的另一难题,需要设计高效的物理引擎来建模柔性物体和流体,以便机器人进行强化学习。真正的Physical AI Infra应能提升数据效率,优化预训练和后训练效果,并支持复杂任务的泛化部署。
2028年将是Physical AI规模化落地的里程碑
李一鸣认为,轮臂(带轮子的机械臂)是目前适配大多数操作场景的硬件形态,尽管人形机器人潜力巨大,但技术难度仍高。
前期,公司将积极与场景方合作,以实现数据规模化和机器的后训练。他们采取“先ToB,后ToC”的模式,先切入工业、物流以及生活消费类场景,这些场景替代性强、重复性高,客户有强烈的降本提效需求。
公司的最终目标是打造一款通用的Physical AI Infra,如同iOS之于移动应用,能够规模化开发和部署各类物理操作任务。这一目标的核心驱动力来自于一套原生世界模型架构,以及数据与物理双轮驱动的训练与评测基础设施,他称之为“荔枝系统”。
他预测,2028年将是Physical AI规模化落地的里程碑,届时数据采集规模和电机密度将实现跃升,从而支撑其解决方案的广泛应用。



