DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕

2023-08-03 13:20:02   来源:商业新知网

来源:新智元


(资料图)

基础模型之上的统一智能体,王者中的王者。

AI智能体的研究,已经卷起来了。

一直以来,基础模型不断涌现,还未有过统一的智能体。

来自Google DeepMind研究团队,设计了一个框架,使用语言作为核心推理工具,探索让智能体解决一系列基本的RL挑战。

比如,高效探索、重复使用经验数据、从观察中学习。

要知道,这些挑战从传统意义上来说,都需要专门的、垂直设计的算法。

论文地址:

https://arxiv.org/pdf/2307.09668.pdf

研究人员在一个稀疏奖励模拟智能体操作环境中进行了测试。结果显示,AI智能体在探索效率,重用数据等能力方面,得到了很大提升。

那么,DeepMind设计了一个怎样的框架?

AI智能体:语言做核心

一般来说,智能体只有与环境相互作用后,才能从中学习,但这个过程需要不断进行实验和试错。

而现在,利用基础模型已有的知识,可以极大地推进这个过程。

对此,研究人员设计了一个框架,将语言置于RL智能体的核心,特别是在从头学习的背景下。

结果表明,该框架利用LLM和VLM,可以解决RL环境中的一系列基本问题,比如:

1) 有效地探索稀疏奖励环境

2) 重新使用收集到的数据启动新任务的顺序学习

3) 安排学习技能来解决新任务

以语言为中心的智能体框架

这项工作的目标是,研究使用基础模型,预训练的大量图像和文本数据集,以设计一个更通用和统一的RL机器人智能体。

为此,智能体首先需要将视觉输入映射到文本描述。

其次,需要提示一个带有文本描述和任务描述的LLM来为智能体提供语言指令。最后,智能体需要将LLM的输出转化为行动。

具体来讲,需要经过以下四个过程:

使用VLM的连接视觉和语言

为了以语言形式描述从RGB摄像头获取的视觉输入,研究人员使用CLIP这一大型对比视觉语言模型。

CLIP计算观察结果与文字描述之间相似性的示例

语言推理

语言模型以语言形式的提示作为输入,通过自动回归计算下一个token的概率分布,并从该分布中采样,产生语言作为输出。

把指令根植行动

LLMs提供的语言目标,然后根植到使用语言条件化策略网络的行动中。

收集和推断学习范式

智能体通过收集和推断范式的启发,与环境的互动中学习。

实验结果

通过使用语言作为代理的核心,为解决RL中的一系列基本挑战提供了一个统一的框架。

接下来,就这这样智能体的能力如何,再此,研究人员重点从探索、重用过去的经验数据、安排和重用技能以及从观察中学习进行了描述。

探索——通过语言生成课程

这里,团队演示了一个RL智能体如何利用LLMs的优势,利用课程的文本子目标,产生没有任何过去的环境互动。

如下,学习曲线清楚地说明了,最新方法是如何比所有任务的基线更有效率。

值得注意的是,智能体的学习曲线在Triple Stack任务中迅速增长,而基线智能体仍然必须得到一个单一的奖励,因为任务的稀疏性是106。

左图:收集和推断管线;中右图:框架的学习曲线,以及「堆栈红蓝」和「三重堆栈」任务的基准学习曲线

随着任务变得越来越稀疏,LLM提出的子目标数量也增加了。

这使得增长变得越来越缓慢,这表明最新框架可以扩展到更难的任务,并使它们易于处理。

此外,与之前需要精心设计的内在奖励,或其他探索奖励的方法不同,最新框架可以直接利用LLM和VLM的先验知识,生成一个具有语义意义的探索课程。

从而为即使在奖励稀少的环境中,也能以自我激励的方式进行探索。

通过重用离线数据来学习任务

研究显示,研究人员绘制了智能体在环境中,需要采取多少个相互作用步骤,才能在每个新任务上达到50%的成功率,如图所示。

实验清楚地说明了,最新框架在重用为以前的任务收集的数据方面的有效性,提高了新任务的学习效率。

结果表明,谷歌框架可用于释放机器人智能体的终身学习能力:连续学习的任务越多,学习下一个任务的速度就越快。

这对将智能体部署到开放式环境(尤其是现实世界)中尤其有利。

通过利用智能体在整个生命周期中遇到的数据,智能体学习新任务的速度应该远远快于纯粹的从头开始学习。

从观察中学习: 从视频到技能的映射

从观察外部智能体中学习是一般智能体的理想能力,但这通常需要特别设计的算法和模型。

研究人员设计的智能体,可以以专家执行任务的视频为条件,从观察中一次性学习。

测试中,智能体会拍摄一段人类用手堆放物品的视频。

尽管只对来自MuJoCo模拟的图像进行了微调,VLM还是能够准确地预测,描绘机器人或人类手臂的真实世界图像上的文本-图像对应关系。

研究的初步结果表明,利用基础模型可以让通用的RL算法能够解决各种问题,提高效率和通用性。

通过利用这些模型中包含的先验知识,可以设计出更好的智能体,能够直接在现实世界中解决具有挑战性的任务。

关键词:

精彩阅读

英特尔发行绿色债券,募集到了12.5亿美元资金,第1年内投资了4.25亿美元。

热点

英特尔发行绿色债券,募集到了12 5亿美元资金,第1年内投资了4 25亿美元。

数据云平台DataSimba最新LTS版,限定免费升级

热点

奇点云数据云平台DataSimbaR4 9LTS,即本年度最新的长期支持版,已于5

Meta Connect 2023定档;苹果、Adobe、皮克斯、Nvidia、Autodesk组建OpenUSD联盟

热点

MetaConnect是Meta的开发者大会,今年活动将于当地时间9月27日-9月28日

讨论:广电或许会被三大运营商干得头破血流

热点

尽管中国广电在通信市场上的发展困难重重,但既来之则安之。

区政府与广东广电网络达成战略合作

热点

日前,佛山市南海区人民政府与广东省广播电视网络股份有限公司签订战略

为什么现在没什么人谈「区块链」了?

热点

曾几何时的区块链和今年的AI一样“热”,前些年它一度作为是“疯狂”的

用友荣获信通院“铸基计划”iPaaS系列标准突出贡献单位

热点

从运营来说,在线运营是用友iPaaS的核心之一,客户可体验到24小时不间

非洲数字经济潜力巨大

热点

非洲只占全球数字经济的1%。美国、中国和亚洲分别以68%、22%和27%的比

财富

1家只有1个人的公司,年赚1个亿!

资讯

1家只有1个人的公司,年赚1个亿!,“盖哥”和他的公司能给创业者哪些启

OpenAI向美国专利局提交“GPT-5”商标申请

资讯

OpenAI向美国专利局提交“GPT-5”商标申请,7月31日,美国商标律师JoshG

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产

资讯

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产,8月1日消息,澳

部分新款iPhone或推迟至10月以后发售

资讯

部分新款iPhone或推迟至10月以后发售,由于OLED屏的量产推迟,部分新机

恒大地产:所有存续公司债将继续停牌

资讯

恒大地产:所有存续公司债将继续停牌,恒大地产发布公告称,为保证公平

马斯克将领导X平台的产品及工程师团队

资讯

马斯克将领导X平台的产品及工程师团队,社交媒体平台X(前身为推特)表

多个AIGC应用在苹果应用商店下架

资讯

多个AIGC应用在苹果应用商店下架,包括讯飞星火在内的多个AIGC相关App,

上汽集团:7月份上汽销售新能源汽车9.1万辆

资讯

上汽集团:7月份上汽销售新能源汽车9 1万辆,据上汽集团官微,据初步统

京东回复收购永辉传闻:目前没有这个意向

资讯

京东回复收购永辉传闻:目前没有这个意向,针对“京东洽谈收购永辉”的

英特尔发行绿色债券,募集到了12.5亿美元资金,第1年内投资了4.25亿美元。

英特尔发行绿色债券,募集到了12 5亿美元资金,第1年内投资了4 25亿美元。

数据云平台DataSimba最新LTS版,限定免费升级

奇点云数据云平台DataSimbaR4 9LTS,即本年度最新的长期支持版,已于5

Meta Connect 2023定档;苹果、Adobe、皮克斯、Nvidia、Autodesk组建OpenUSD联盟

MetaConnect是Meta的开发者大会,今年活动将于当地时间9月27日-9月28日

讨论:广电或许会被三大运营商干得头破血流

尽管中国广电在通信市场上的发展困难重重,但既来之则安之。

洁牙好不好呢_洁牙好不好

1、对于现今交际较多的人来说,一口漂亮洁白的牙齿是相当重要的。2、洗

Q+(qplus)是什么(Q+是什么意思)

我们将与腾讯一起,为QQ用户提供更细致、更有针对性的服务。二、Q常见

痛心!4人身亡,遇难者皆为学生

据南京江北新区微信公众号8月1日消息,7月31日,南京江北新区发生一起

全球连线 | “中国军医给了我第二次生命”——记中国援埃塞军医专家组的白衣天使

新华社重庆 亚的斯亚贝巴8月2日电这是一项特殊的使命。9年间,80多名中

明月镜片:8月2日获融资买入439.19万元

同花顺数据中心显示,明月镜片8月2日获融资买入439 19万元,占当日买入

7月财新服务业PMI54.1 预期52.4

8月2日,百度Apollo宣布长城汽车、亿咖通科技成为首批文心大模型智舱应