当我还在和ChatGPT聊天,有人已经开始用它来控制机器人干活了

2023-04-07 10:20:11   来源:商业新知网

ChatGPT 的功能目前已扩展到机器人领域,可以用语言直观控制如机械臂、无人机、家庭辅助机器人等的多个平台。这会改变人机交互的未来形式吗?

你可曾想过用自己的话告诉机器人该做什么,就像对人说话那样?


(资料图片仅供参考)

比如说,只要告诉你的家庭助理机器人「请帮我热一下午餐」,然后它就能自己找到微波炉。很神奇,对吗?

尽管语言是人类表达意图的最直观的方式,但此前很长一段时间,人们仍然严重依赖手写代码来实现对机器人的控制。不过,当 ChatGPT 出现之后,这种情况要变一下了。

在最近的一项研究中,微软团队在探索如何使用 OpenAI 的新 AI 语言模型 ChatGPT 来使自然的人机交互成为可能。

ChatGPT 是一个在大量文本和人类互动语料库上训练的语言模型,因此应对广泛的 prompt 和问题时,它可以生成连贯且语法正确的响应。这项研究的目标是看看 ChatGPT 是否可以超越文本思考,并对现实世界进行推理,以帮助机器人完成任务。研究者希望以此便利人们与机器人的互动,而不需要学习复杂的编程语言或机器人系统的细节。

研究的关键挑战在于教会 ChatGPT:如何通过考虑物理定律、操作环境以及机器人运用肢体动作改变周遭环境的方式来解决问题。

事实证明,ChatGPT 本身可以做很多事情,但它仍然需要一些帮助。团队在论文中描述了一系列可用于指导语言模型解决机器人任务的设计原则,包括(但不限于)特别 prompt 结构、高级 API 和通过人类文本反馈。研究者认为,这项工作只是开发机器人系统的转变的开始,并且希望通过这项研究激励其他研究人员加入这个有趣的研究领域。

当今机器人技术面临的挑战,以及 ChatGPT 能提供的帮助

目前机器人的操作流程是从工程师或技术用户开始,需要他们将任务需求转换为系统代码。工程师会处于工作流程的回路中,他们需要不断编写新的代码和规范来纠正机器人的行为。总得来说,这个过程是缓慢的(用户需要编写低级代码)、昂贵的(需要对机器人技术有深入了解的高技能用户)且低效的(需要多次交互才能正常运转)。

但 ChatGPT 开启了一种新的机器人范式,并允许潜在的非技术型用户参与到回路之中,在监视机器人性能的同时向大型语言模型(LLM)提供高级反馈。通过遵循研究的设计原则,ChatGPT 可以为机器人场景生成代码。在没有任何微调的情况下,研究利用 LLM 的知识来控制不同的机器人形状,以完成各种任务。工作中,研究人员展示了多个 ChatGPT 解决机器人难题的示例,以及在操作、空中和导航领域的复杂机器人部署。

机器人与 ChatGPT:设计原则

Prompting LLM 是一门高度实证的科学。研究通过反复试验建立了一套为机器人任务编写 prompt 的方法和设计原则:

首先,研究定义了一组高级机器人 API 或函数库。这个库可以特定于特定的机器人,并且可以映射到机器人的控制堆栈或感知库中现有的低级实现。对高级 API 使用描述性名称非常重要,这样 ChatGPT 就可以推断它们的行为;

接下来,研究人员为 ChatGPT 编写一个文本 prompt,它描述了任务目标,同时明确说明来自高级库的哪些函数是可用的。Prompt 还可以囊括关于任务约束的信息,或者 ChatGPT 应该如何形成其答案(特定的编码语言,使用辅助解析元素);

用户在回路中评估 ChatGPT 的代码输出,要么通过直接检查,要么使用模拟器。如果需要,用户可以使用自然语言向 ChatGPT 反馈答案的质量和安全性。 用户满意解决方案的话,代码就可以最终部署到机器人上。

理论已经够多了,ChatGPT 到底能做什么?

让我们参看几个例子,你还可以在代码库中找到更多案例研究。

零样本任务计划

研究人员让 ChatGPT 控制真正的无人机,经证明,它是非技术用户和机器人之间非常直观的基于语言的接口。当用户的指令含糊不清时,ChatGPT 会提出要明晰问题,并为无人机编写复杂的代码结构以直观地检查架构,例如锯齿形模式。它甚至学会了自拍!

研究人员还使用 Microsoft AirSim 模拟器在一个模拟工业检验场景中使用 ChatGPT。该模型能够有效地解析用户的高级意图和几何线索,从而准确地控制无人机。

回路中的用户:当复杂的任务需要对话时

接下来,研究人员将 ChatGPT 用于机械臂的操作场景,并使用对话反馈来教会模型如何将最初提供的 API 组合成更复杂的高级函数:ChatGPT 自动编程。该模型能够使用课程本位策略,按照逻辑将学习到的技能链接在一起,以执行诸如堆叠块等操作。

此外,当用木块构建微软标志时,该模型展示了一个连接文本和物理域的完美示例。它不仅能够从内部知识库中回忆 logo,还能够「绘制」logo(作为 SVG 代码),然后使用上面学到的技能来找出哪些现有的机器人动作可以构成其外形。

接下来,研究人员让 ChatGPT 编写一个算法,让无人机在达到空中目标的同时不撞上障碍物。他们告诉模型,这架无人机有一个面向前方的距离传感器,ChatGPT 立即为算法编写了大部分关键构建块。这项任务需要与人进行一些对话,ChatGPT 仅使用语言反馈就能进行本地化代码改进的能力令人印象深刻。

感知 - 行动回路:机器人在行动前感知世界

在做某事(行动)之前感知世界(感知)的能力是任何机器人系统的基础。因此,研究人员决定测试 ChatGPT 对这个概念的理解,并要求它探索一个环境,直到找到用户指定的对象。研究为模型提供了对象检测和对象距离 API 等功能,并验证了它生成的代码成功实现了感知 - 行动循环。

在实验阶段,研究者进行了额外的实验,以评估 ChatGPT 是否能够根据传感器反馈实时决定机器人应该去哪里(而不是让 ChatGPT 生成一个代码回路来做出这些决定)。有趣的是,恰好验证了可以在对话的每一步中输入相机图像的文本描述,并且模型能够弄清楚如何控制机器人,直到它到达特定的对象。

PromptCraft, LLM + 机器人研究的协作开源工具

良好的 Prompt 工程对于大型语言模型的成功至关重要,例如 ChatGPT 用于机器人任务。可惜,Prompt 是一门实证科学,缺乏全面和可访问的资源,其中能为该领域的研究人员和爱好者提供帮助的例子也是良莠不齐。为了弥合这一差距,研究者引入了「PromptCraft」,这是一个协作开源平台,任何人在这里都可以分享不同机器人类别的 Prompt 策略示例,而且,研究者公布了在这项研究中使用的所有 Prompt 和对话。

除了 Prompt 设计,研究还希望包括多个机器人模拟器和界面,允许用户测试他们的 ChatGPT 生成的算法。作为开始,研究还发布了一个与 ChatGPT 集成的 AirSim 环境,任何人都可以使用它来展开这些想法。

ChatGPT-AirSim 接口

让机器人走出实验室,走向世界

发布这些技术是一件值得庆祝的事,因为这会扩大机器人技术的受众面。微软的研究人员相信,基于语言的机器人控制将会为让机器人从科学实验室走进日常用户的生活中奠定基础。

本文要强调的是,在没有仔细分析的情况下,ChatGPT 的输出并不意味着要直接部署在机器人上。研究者鼓励用户利用模拟的力量,以便在潜在的现实生活部署之前评估这些算法,并始终采取必要的安全预防措施。本文所讲述的工作只代表了在机器人领域运行的大型语言模型的交集中可能实现的一小部分,希望能为更多的研究提供灵感。

论文链接:

https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf

原文链接:

https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

来 源| 机器之心 (ID:almosthuman2014)

作者|机器之心;编 辑| 余之姚

内容仅代表作者独立观点,不代表早读课立场

关键词:

上一篇:
下一篇:
精彩阅读

《元宇宙产业链生态发展白皮书(2023年)》发布

热点

未来,面向消费端、行业应用、政府等“元宇宙”应用需求将驱动人工智能、区块链、云计算等新技术领域研发和应用创新活跃。

当前滚动:首批因AI失业的人出现 某游戏公司裁掉半数原画师

热点

首批因AI失业的人出现某游戏公司裁掉半数原画师。

互联网湘军风云三十年

热点

湖南,公认的互联网大佬盛产地。

约翰·卡马克:VR是很好的赌注,而Meta输了;索尼成立全资子公司专注传感、人工智能与数字虚拟空间

热点

《GORN》以古代斗技场的残酷战斗为主题,玩家扮演一名角斗士,运用各种武器击败场上的敌人。

【环球新视野】关于GPT-4,14个容易被忽略的惊人细节!

热点

OpenAI推发布了GPT-4之后,向科技界再次扔下了一枚“核弹”。

环球即时:鸿蚁光电推出多组元联动调焦BB AR光学模组

热点

实现了0D到6D的屈光度调节中,FOV的变化远小于传统的调节方案,使得不同用户的大屏体验保持一致。

阿里搞了个AI嘴替.mp4

热点

未来咱们伸伸手也能够得着了。你说,这个大模型出来,有些人的工作是不是真能躺着做了?

世界观速讯丨“AI显性化”系列二:AI+影视

热点

目前,在影视制作领域AI技术应用成果主要在智能化的剧本创作上。

全球微动态丨产品快讯丨神策数据 A/B 测试试验指标管理重磅升级

热点

神策数据A B测试为企业提供了常见业务指标的观测能力,帮助企业更全面地评估试验效果。

财富

热点聚焦:“孤家寡人”周鸿祎:ChatGPT风口下,一场90亿离婚

资讯

“孤家寡人”周鸿祎:ChatGPT风口下,一场90亿离婚,360的故事或许还能借着ChatGPT、人工智能重写,不过周鸿祎的身边早已不是旧相识。

天天热讯:成立即“准独角兽”,腾讯投资的这家AI企业有何本事?

资讯

成立即“准独角兽”,腾讯投资的这家AI企业有何本事?,出生即“准独角兽”,手握腾讯投资、业务合作阿里云,这家备受关注的云原生数据库公司终

马斯克“忌惮”的ChatGPT,让人类更聪明还是更愚蠢?

资讯

马斯克“忌惮”的ChatGPT,让人类更聪明还是更愚蠢?,诞生于茧房,逃不出高墙。

世界观热点:离开印尼和印度后,我到中东创业

资讯

离开印尼和印度后,我到中东创业,中国企业出海迈向深度化、本地化。

天天播报:锅圈食汇凭什么赴港IPO?

资讯

锅圈食汇凭什么赴港IPO?,“好吃方便还不贵”是消费者永恒的追求。

天天微资讯!GPT-4超强进化,近万人联名封杀!白宫紧急开会,ChatGPT概念股暴跌

资讯

GPT-4超强进化,近万人联名封杀!白宫紧急开会,ChatGPT概念股暴跌,最近,全世界都燃起一股围剿ChatGPT的势头,除了业内大佬,欧盟各国和白宫

虎头局倒下,天价估值破灭的开始

资讯

虎头局倒下,天价估值破灭的开始,在街头巷尾人潮汹涌,消费复苏的火热气氛里,明星消费公司虎头局却哑火了。

速讯:5年开出近万家门店,营收超70亿!锅圈要IPO了

资讯

5年开出近万家门店,营收超70亿!锅圈要IPO了,值得一提的是,在IPO之前的2019—2022年,锅圈就已经是“资本的宠儿”,共计完成7轮融资。

世界快资讯:半个朋友圈都在蹭的樱花,狂吸80亿

资讯

半个朋友圈都在蹭的樱花,狂吸80亿,“世上花卉千千万,为何樱花独一人?”

世界快消息!李想,再添一个IPO

资讯

李想,再添一个IPO,三年亏损8 6亿。

《元宇宙产业链生态发展白皮书(2023年)》发布

未来,面向消费端、行业应用、政府等“元宇宙”应用需求将驱动人工智能、区块链、云计算等新技术领域研发和应用创新活跃。

当前滚动:首批因AI失业的人出现 某游戏公司裁掉半数原画师

首批因AI失业的人出现某游戏公司裁掉半数原画师。

互联网湘军风云三十年

湖南,公认的互联网大佬盛产地。

约翰·卡马克:VR是很好的赌注,而Meta输了;索尼成立全资子公司专注传感、人工智能与数字虚拟空间

《GORN》以古代斗技场的残酷战斗为主题,玩家扮演一名角斗士,运用各种武器击败场上的敌人。

【环球新视野】关于GPT-4,14个容易被忽略的惊人细节!

OpenAI推发布了GPT-4之后,向科技界再次扔下了一枚“核弹”。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个