CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”
“我们从哪里来?我们往哪里去?”这是人类永恒的追问,也是对智能时代边界的叩问。
从钻木取火到驾驭电力,从结绳记事到信息互联,每一次技术跃迁都深刻地改变着人类的生存方式和认知边界。如今,人工智能正以前所未有的速度发展,具身智能作为人工智能的重要载体,正逐渐从科幻走向现实,叩响了智能进化的新篇章。
它们能否像人类一样感知、思考、行动?它们将如何与人类共存?这不仅是技术层面的挑战,更是对“智能”本质的深刻拷问。卡尔·波普尔说,“我们所有的知识都只是猜测”,我们对具身智能的理解也同样如此。我们试图用机器来模拟人类的智能,但在这个过程中,也在不断地反思和理解人类自身的智能是如何运作的。这是一种双向的启发和促进,人工智能的发展,不仅推动了技术进步,也促进了人类对自身的认知。
对智能边界的不断探索,驱动着技术的革新。基于对未来具身智能的深刻洞察,2025 CES 期间,NVIDIA发布了一系列通用机器人基础模型、数据管线和仿真框架,旨在加速下一代人形机器人的开发进程。
师法自然:“合成数据”让机器人“入门”
亚里士多德说“模仿是人类学习的第一天性”。人类的学习方式是复杂的,但模仿无疑是其中最原始、最有效的方式之一。“鹦鹉学舌”、“有样学样”,这些看似简单的行为,蕴含着深刻的智慧。从婴儿蹒跚学步模仿父母的动作,到学徒模仿工匠的技艺,模仿贯穿了我们学习和成长的始终。模仿学习正是借鉴了这一自然规律,赋予机器人从示范中学习的能力。它避免了传统机器人训练中繁琐的编程和大量的试错,使机器人能够更快速、更直观地掌握新技能
传统的强化学习,虽然能够让机器人在与环境的交互中不断学习和优化,但往往需要大量的试错和精巧的奖励函数设计,效率较低。而通过用于合成运动生成的NVIDIA Isaac GR00T Blueprint,开发者只需少量人类示范,就能轻松生成海量的合成数据集,以便通过模仿学习训练人形机器人。
来源:NVIDIA
NVIDIA Isaac GR00T Blueprint中的GR00T-Teleop和GR00T-Mimic,正分别从不同的角度针对不同的应用步骤提供解决方案。
GR00T-Teleop工作流侧重于实时的远程操作和学习,适用于需要人类干预或指导的复杂任务。它利用VR/AR头显、手柄等空间计算设备(Apple Vision Pro),为操作者创建沉浸式的虚拟环境。人类操作者佩戴这些设备后,可以在虚拟环境中以第一人称视角控制机器人“化身”,身临其境地操作机器人。操作者的动作会被精确捕捉,并通过高速网络传输到机器人身上,使机器人能够实时复现操作者的动作。这种方式不仅降低了机器人操作的门槛,且无需专业的编程知识,同时也为机器人学习复杂技能提供了有效的途径。
GR00T-Mimic的核心技术则结合了多种前沿方法,旨在通过精确的动作模仿和增强学习能力,实现更自然的行为生成和高效的环境适应。首先,GR00T-Mimic采用了先进的深度学习模型来进行轨迹建模,通过训练循环神经网络(RNN)、长短期记忆网络(LSTM)以及Transformer等模型。运用GR00T-Mimic能够有效学习人类动作的轨迹和规律,进而生成新的动作轨迹。
此外,随着其对人体运动理解的深入,图神经网络(GNN)被引入用于建模人体骨骼的运动关系,从而使得生成的动作更加自然和精确。为了进一步优化轨迹的质量,GR00T-Mimic还融合了强化学习方法,能够根据任务需求对生成的动作进行自我调整和改进,提高执行精度。
如果从工作流的角度划分,GR00T-Teleop 工作流如同一位细致的抄写员,忠实地记录下人类动作的每一个细节,仿佛是编写一部关于“人”的百科全书的序章。
在完成这份初步的“抄写”后,接下来的任务是对这些记录进行整理、扩展和深化。GR00T-Mimic 工作流承担了这一重任,它将有限的人类示范转化为庞大的数据集。在这一过程中,“涌现”的现象逐渐显现,简单的规则和模式相互作用,产生了复杂多样的行为。
之后,利用基于 NVIDIA Omniverse 和 NVIDIA Cosmos 平台构建的GR00T-Gen 工作流,将数据集扩展到指数级别。这一阶段,不再是对已有信息的简单复制,而是进入了创造与演化的全新阶段。
最终,这些数据集将会被注入到 NVIDIA Isaac Lab,成为机器人学习的“教科书”。此时,机器人不再是被动执行指令的工具,而是开始主动适应世界并实现进化,最终掌握了在现实世界中执行复杂任务的能力。
来源:NVIDIA
前景上看,GR00T Blueprint及相关技术将在多个行业中展现巨大潜力。如帮助制造业提高生产效率,物流业提升自动化和末端配送能力,医疗领域提升手术精度和护理质量,建筑业提高施工效率和安全性,服务业改善用户体验。此外,GR00T Blueprint将推动机器人技术的标准化和模块化,降低开发成本,缩短开发周期,为机器人应用的普及与创新提供强大支持。
虚实相生:Cosmos让AI更靠近“现实宇宙”
“存在即合理”,这是黑格尔的名言。然而,对于在理解和交互物理世界的物理AI而言,仅仅“存在”是不够的,还需要能够理解和模拟“存在”的数据。真实世界的数据固然重要,但其采集、标注和使用面临诸多挑战,如同柏拉图《理想国》中描述的洞穴囚徒,我们所能接触到的只是投射在墙壁上的影子,而非事物的本质。
一直以来,海量的数据需求、繁琐的数据标注、以及难以获取的极端场景......这些挑战就像一道道屏障,阻碍着物理AI的发展。NVIDIA 在CES 2025期间发布的Cosmos,正打破这些屏障,为物理AI的发展注入新的活力。
Cosmos并非简单地提供现成的数据,而是构建了一个强大的平台,它基于世界基础模型(WFM),能够生成高度逼真的合成数据,就像创造了一个虚拟的“宇宙”,让AI系统在这个虚拟世界中自由探索和学习。
那么,Cosmos是如何构建这个“宇宙”的呢?其核心在于其世界基础模型(WFM),它们是经过海量数据训练的生成模型,能够理解和模拟物理世界的各种规律,例如物体的运动、碰撞、光照、材质等等。有了这些“定律”,Cosmos就能创造出各种各样的虚拟场景,从简单的物体运动到复杂的交通环境,应有尽有。Cosmos使用WFM可以从Omniverse平台上开发的可控3D场景中生成逼真视频。“使用Cosmos 模型从NVIDIA Omniverse™ 平台上开发的可控3D 场景中生成逼真视频。同时,开发者无需从零开始构建复杂的物理模拟环境,大大降低了开发难度。
来源:NVIDIA
有了“宇宙”,还需要高效的“信号”来传递信息。Cosmos可以将图像和视频转换为高保真度的“数据令牌”。这种转换不仅提高了数据处理的效率,还有助于模型更好地理解和处理视觉信息。NVIDIA Cosmos Tokenizer 是先进的可视化tokenizer(Tokenizer是预处理文本数据的重要步骤,它将连续的文本切分成具有实际意义的词汇或子词序列。)可将图像和视频转换成token。与当前领先的tokenizer 相比,其总压缩率提高了8 倍,处理速度提高了12 倍。
要让“宇宙”高效运转,还需要强大的“引擎”。Cosmos利用NVIDIA的GPU加速技术和NeMo Curator驱动的数据处理管线,构建了高效的数据处理和策划管道。使用NVIDIA 的计算平台,Cosmos可以在14天内处理、整理和标记2000万小时的视频,而使用CPU则需要3年以上。“NVIDIA NeMo™ Curator 驱动的NVIDIA AI 和CUDA® 加速数据处理管线,使开发者能够使用NVIDIA 的计算平台 在14 天内处理、整理和标记2000 万小时的视频,而如果单纯使用CPU 则需要3 年以上。
Cosmos不仅创造了“宇宙”,还提供了“实验室”,供AI模型进行各种实验和研究。开发者可以在WFM的基础上构建自定义模型,使用Cosmos进行强化学习以改进模型,或者测试模型在特定仿真场景中的表现。Cosmos可以用于预测与“多元宇宙”模拟,生成AI模型所有未来可能实现的结果,帮助其选择最佳和最准确的路径。
事实上,Cosmos也并非孤立存在,它能与NVIDIA Omniverse、NVIDIA NeMo等技术紧密集成,形成了一个完整的物理AI开发生态系统。这就像是“宇宙”的不同组成部分,相互关联、相互作用,共同构成一个完整的体系。
有了这个强大的“宇宙”,物理AI的应用前景变得更加广阔:自动驾驶汽车可以在虚拟的道路上行驶数百万英里,机器人可以在虚拟的工厂里进行各种操作,而无需担心安全和成本问题。
目前,交通运输领域的领先企业也在使用Cosmos构建适用于自动驾驶汽车的物理AI。Agility的首席技术官Pras Velagapudi表示,Cosmos能够生成和增强逼真的场景,并利用这些场景训练模型,而不需要采集那么多昂贵的真实数据。“借助Cosmos 的文本、图像和视频到‘世界’的能力,我们能够在各种任务中生成和增强逼真的场景并利用这些场景训练模型,而不需要采集那么多昂贵的真实数据。”
写在最后:赋予智能无限的进化空间
NVIDIA Isaac GR00T、Omniverse 和 Cosmos 正构建一个前所未有的生态系统,推动物理 AI 和人形机器人领域实现巨大飞跃。从波士顿动力和 Figure 等行业领军者率先采用NVIDIA Isaac GR00T 并展示相关成果可以看出,人形机器人正加速走出实验室,走向现实应用。
事实上,在科学研究中,演绎与归纳方法是两种重要的推理方式,这位为人类理解世界提供了不同的路径。演绎推理从一般性原则出发,通过逻辑推导得出具体结论;而归纳推理则从个别事实出发,通过观察总结出普遍性规律。
遵循规律,基于对物理世界规律的理解(例如运动学、动力学),通过 Cosmos 和 Omniverse 构建虚拟环境,进行“演绎”,推导出机器人在不同场景下的行为模式。通过 Isaac GR00T 和实际机器人进行实验,收集数据,进行“归纳”,验证和修正之前的推论,并进一步完善模型。这种“演绎-归纳”的循环往复,不断推动着机器人技术的进步,使其更加精确、智能。它也类似于控制论中的反馈机制,通过不断地比较实际输出和期望输出之间的差异,进行调整和优化,最终达到控制目标。
这种不断自我完善的能力,赋予了它们无限的成长空间,也预示着机器人智能的未来拥有无限的可能。
这是一种进化,是硅基生命演化的另一种形式。
本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码