物理 AI 是指使用运动技能理解现实世界并与之进行交互的模型,它们通常封装在机器人或自动驾驶汽车等自主机器中。利用物理 AI,自主机器能够感知、理解并在现实 (物理) 世界中执行复杂的操作。
什么是物理AI?
物理AI是英伟达CEO黄仁勋提出的AI新阶段概念,指能够理解和交互于现实世界的AI系统。物理人工智能具有以下特点:
- 执行智能生物体相似任务的实体系统,能协同进化控制、形态、动作执行和感知能力。
- 理解物理定律和三维空间关系,能在真实物理环境中进行复杂操作。
- 主要应用于自主机器,如机器人和自动驾驶汽车。
- 涉及两个层次:
- 模拟仿真工具:将物理AI模型集成到自主机器中。
- 生成符合物理规律的训练数据。
- 结合传统AI与物理模型,使AI能理解和模拟物理世界规律。
物理AI的发展将推动机器人技术进步,有望实现机器人的"ChatGPT时刻",为各行业带来革命性变革。
物理 AI 如何工作?
将基于主要从互联网上收集的大量文本和图像数据来训练生成式 AI 模型,例如 GPT 和 Llama 等大语言模型。这些 AI 模型在生成人类语言和抽象概念方面能力惊人,但它们对物理世界了解有限,并受其规则约束。
由于物理 AI 能够理解我们居住的三维世界的空间关系和物理行为,因而扩展了当前的生成式 AI。它通过在 AI 训练过程中提供其他数据来实现上述理解,这些数据包含与现实世界的空间关系和物理规则有关的信息。
3D 训练数据由高度精确的计算机模拟生成,后者既充当数据源,也作为 AI 训练场。
基于物理的数据生成始于某个空间 (例如工厂) 的数字孪生。然后在这个虚拟空间中添加传感器和自主机器 (如机器人)。接着执行模拟以模仿现实世界场景,传感器会捕捉各种交互,如刚体动力学 (例如运动和碰撞) 或光在环境中的交互作用。
强化学习在物理 AI 中扮演什么角色?
强化学习用于在模拟环境中向自主机器教授技能,以便在现实世界中执行操作。借助强化学习,自主机器可以通过数千甚至数百万次试错行为,安全快速地学习技能。
这种学习技术有助于物理 AI 模型在模拟过程中成功完成所需操作,便于模型不断适应和改进。通过重复性的强化学习,自主机器最终能够适应新的情况和无法预料的挑战,为在现实世界中运行做好准备。随着时间的推移,自主机器可以发展出现实世界应用所需的精巧运动技能,例如灵巧地给箱子打包、帮助制造车辆或独立完成环境导航。
物理 AI 为什么至关重要?
以前,自主机器无法感知和察觉它们周围的世界。但是,借助物理 AI,就可以构建和训练机器人,与现实世界中的周围环境进行无缝交互并适应各种环境。
要构建物理 AI,团队需要基于物理的强大模拟,为训练自主机器提供安全的受控环境。这不仅提高了机器人在执行复杂任务时的效率和准确性,而且有利于人类与机器之间进行更自然的交互,从而提高现实世界应用的可访问性和功能性。
物理 AI 正解锁将颠覆每个行业的新功能。例如:
- 机器人:借助物理 AI,机器人在各种环境下的操作能力显著增强。
- 利用来自机载传感器的直接反馈,仓库中的自主移动机器人 (AMR) 可以在复杂环境中导航,并避开包括人类在内的障碍物。
- 机械手可以根据传送带上物体的位姿调整他们的抓力和位置,展示根据物体类型量身定制的精细和粗大运动技能。
- 通过学习复杂的任务(如穿针和执行缝合),手术机器人也可从这种技术中受益,凸显了物理 AI 在训练机器人执行专业任务时的精确性和适应能力。
- 自动驾驶汽车 (AV):AV 可使用传感器感知并理解周围环境,以便在各种环境 (从开放式高速公路到城市景观) 中做出明智决策。通过基于物理 AI 对 AV 进行训练,AV 能够更准确地检测行人,对交通或天气条件做出响应并自动变换车道,从而有效适应各种意外情况。
- 智能空间:物理 AI 将增强大型室内空间(如工厂和仓库)的功能性和安全性,这些空间的日常活动涉及稳定的人流、车辆和机器人。使用固定摄像头和先进的计算机视觉模型,团队可以通过跟踪这些空间内的多种实体和活动来加强动态路线规划并优化运营效率。此外,他们还可通过准确感知和理解复杂的大规模环境来优先考虑人身安全。
如何开始使用物理 AI?
使用物理 AI 构建新一代自主机器需要采取跨多台专用计算机的协调过程:
- 构建虚拟 3D 环境:需要基于物理的高保真虚拟环境来代表真实环境,并生成训练物理 AI 所需的合成数据。Nvidia Omniverse™ 平台提供了各种 API、SDK 和服务,可帮助开发者轻松将通用场景描述 (OpenUSD) 和 RTX 渲染技术集成到现有软件工具和仿真工作流中,以构建这些 3D 环境。此环境由 NVIDIA OVX™ 系统提供支持。这一步还包括捕获仿真或模型训练所需的大规模场景或数据。fVDB 是一项关键技术突破,它可有效呈现各种功能,是一个可基于大规模 3D 数据执行深度学习操作的 PyTorch 扩展,利用它可高效完成 AI 模型训练并通过丰富的 3D 数据集进行推理。
- 生成合成数据:可使用 Omniverse Replicator SDK 构建自定义合成数据生成 (SDG) 工作流。Replicator 具有内置功能,例如域随机化,允许在 3D 仿真过程中更改许多物理参数,包括光照、位置、尺寸、纹理、材质等。此外,还可以使用采用 ControlNet 的扩散模型来进一步增强生成的图像。
- 训练和验证:NVIDIA DGX™ 平台是一个全集成式硬件和软件 AI 平台,可与基于物理的数据一起结合使用,通过 TensorFlow、PyTorch 或 NVIDIA TAO 等框架,以及 NVIDIA NGC (NVIDIA GPU CLOUD) 上提供的预训练计算机视觉模型来训练或调优 AI 模型。经过训练后,这些模型及其软件堆栈可使用 NVIDIA Isaac Sim™ 等参考应用进行仿真验证。另外,开发者还可以利用 Isaac Lab 等开放源代码框架,使用强化学习来改进机器人的技能。
- 部署:最后,可以将经优化的堆栈部署到 NVIDIA® Jetson Orin™ 以及即将推出的新一代 Jetson Thor 机器人超级计算机上,为类人型机器人或工业自动化系统等物理自主机器赋能。
延伸阅读:什么是通用人工智能(AGI)?
评论