生成式AI教会机器狗在全新环境中攀爬跑酷

教机器人在新环境中导航很困难。你可以在人类录制的真实世界数据上训练它们，但这些数据稀缺且收集成本高昂。数字模拟是一种快速、可扩展的教学方式，但当机器人从虚拟世界被拉出来在现实世界执行相同任务时，它们经常会失败。

现在有了一个潜在的更好选择：一种新系统，利用生成式AI模型与物理模拟器结合，开发出更准确反映物理世界的虚拟训练场。使用这种方法训练的机器人在现实世界测试中的成功率高于使用传统技术训练的机器人。

LucidSim系统

研究人员使用名为LucidSim的系统来训练一只机器狗跑酷（Parkour），让它翻越箱子、爬楼梯，尽管它从未见过任何真实世界数据。这种方法展示了生成式AI在教机器人完成挑战性任务方面可以多么有用。它还提出了一个可能性：我们最终可以完全在虚拟世界中训练机器人。

"我们正处于机器人学的工业革命之中，"参与该项目的MIT计算机科学与人工智能实验室（CSAIL）博士后杨格（Ge Yang）说。"这是我们尝试理解这些生成式AI模型在其原始预期用途之外的影响，希望它能引领我们走向下一代工具和模型。"

LucidSim使用生成式AI模型的组合来创建视觉训练数据。首先，研究人员为ChatGPT生成了数千个提示，让它创建各种环境的描述，代表机器人在现实世界中会遇到的条件，包括不同类型的天气、一天中的时间和光照条件。

这些描述包括"一条古老的巷子，两旁是茶馆和小巧雅致的店铺，每家都展示着传统饰品和书法"以及"阳光照亮一片略显凌乱的草坪，点缀着干燥的斑块"等。

这些描述被输入到一个将3D几何和物理数据映射到AI生成图像的系统，创建短视频来映射机器人要遵循的轨迹。机器人利用这些信息来计算它必须导航的物体（例如箱子或台阶）的高度、宽度和深度。

研究人员通过指示一只配备网络摄像头的四足机器人完成几项任务来测试LucidSim，包括定位交通锥或足球、翻越箱子和上下楼梯。

该机器人使用LucidSim时的表现始终优于使用传统模拟训练的系统：

MIT副教授菲利普·伊索拉（Phillip Isola）表示，如果LucidSim直接从复杂的生成式视频模型获取数据，而不是拼凑组合语言、图像和物理模型，这些结果在未来可能会进一步改善。

纽约大学博士生马希·沙菲乌拉（Mahi Shafiullah）表示，研究人员使用生成式AI的方法是新颖的，将为更多有趣的新研究铺平道路。他说："我个人看到的更有趣的方向是混合真实数据和逼真的'想象'数据，帮助我们当前需要大量数据的方法更快更好地扩展。"

华为专门研究脑启发AI的高级研究员扎菲里奥斯·丰塔斯（Zafeirios Fountas）表示，完全从零开始、纯粹在AI生成的场景上训练机器人的能力是一项重大成就，可以扩展到机器之外，适用于更通用的AI智能体（AI Agent）。

"'机器人'这个术语在这里使用得非常广泛；我们讨论的是某种与真实世界互动的AI，"他说。"我可以想象这被用于控制任何类型的视觉信息，从机器人和自动驾驶汽车到控制你的电脑屏幕或智能手机。"

关于下一步，作者有兴趣尝试使用完全合成数据来训练人形机器人——他们承认这是一个雄心勃勃的目标，因为双足机器人通常不如四足机器人稳定。他们还将注意力转向另一个新挑战：使用LucidSim训练工厂和厨房中使用的机械臂。这些任务需要更多的灵巧性和物理理解，而不仅仅是在地形上奔跑。

"真正拿起一杯咖啡并倒出来是一个非常困难的开放性问题，"伊索拉说。"如果我们能利用生成式AI增强的模拟来创建大量多样性，训练一个非常稳健的、能在咖啡馆中操作的智能体，那将非常酷。"