“终结者”走入现实？微软的野心：用ChatGPT控制机器人！

ChatGPT之所以爆火，其根本原因就在于：AI终于在一定程度上能「听懂人话」了，而非只是按照语法胡乱生成内容；而且它的功能也很强大，问答、写论文、写诗、写代码，只要prompt写得够好，ChatGPT的表现也会更惊人。

要是把这种能力迁移到机器人身上，假设几十年以后，各家各户都有机器人，只要说一声「给我热一下午餐」，它就能自己找到微波炉，再把菜端回来，人机交互直接迈入新时代。

虽然「自然语言」很简洁，但现有的机器人开发还是依赖于「编程语言」。

ChatGPT 是一个基于大量文本和人类反馈训练得到的语言模型，能够针对各种各样的提示和问题产生连贯且语法正确的回应。

这项研究的目的是观察 ChatGPT 是否能够在文本之外的领域进行思考，并推理出物理世界来帮助机器人完成任务。

研究人员预期ChatGPT能够帮助用户更容易地与机器人交互，而不需要学习复杂的编程语言或机器人系统的细节，其中的关键难题就是教 ChatGPT 如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态，并以此来解决指定的任务。

实验证明，ChatGPT 可以独立完成很多工作，但是它仍然需要一些辅助，论文中描述了一系列的设计原则，可以用来指导语言模型解决机器人任务，包括但不限于特殊的提示结构、高级 API 和基于文本的人类反馈等，一场机器人系统的开发革命即将到来。

全新的代码设计流程

给大型语言模型写prompt是一门高度经验主义的科学，通过反复试验，研究人员建立了一套方法论和设计原则，专门用于为机器人任务撰写提示：

1. 定义了一组高级机器人 API 或函数库。

这个库可根据特定的机器人类型进行设计，并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。

对高级 API 使用的描述性名称非常重要，可以帮助 ChatGPT推断函数的功能。

2. 为 ChatGPT 编写一个文本提示，用来描述任务目标，同时显式说明高级库中的哪些函数是可用的。

提示中还可以包含有关任务约束的信息, 或者 ChatGPT 应该如何组织它的答案，包括使用特定的编程语言，使用辅助解析组件等 ;

3. 用户在循环中评估 ChatGPT 的代码输出，可以直接执行代码以检查正确性，也可以使用模拟器。

如果有需要的话，用户可以使用自然语言向 ChatGPT 提供有关答案质量和安全性的反馈。