DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发

2022-05-17 08:40:24   来源:商业新知网

来源:学术头条

在写文章、画图之后,AI 大模型现在又同时有了打游戏的能力。不禁在想,DeepMind 的智能体 Gato 未来还能玩出哪些花活?

假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。

今日,受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。

论文地址:https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。

与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。

Gato 的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。

为了能够处理这种多模态数据,Deepmind 将所有数据序列化为一个扁平的 token 序列。在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的 token 会根据上下文组合成对话响应、字幕、按钮按下或其他动作。

UCL 计算机系教授汪军告诉机器之心,DeepMind 的这项最新工作将强化学习、计算机视觉和自然语言处理这三个领域合到一起,虽然技术思路上沿用了前人的方法,但能将 CV、NLP 和 RL 这三个不同模态映射到同一个空间,用一套参数表达,是非常不容易的。

其积极意义在于,证明了 CV、NLP 和 RL 的结合是切实可行的,通过序列预测能够解决一些决策智能的问题。考虑到 Gato 模型目前的参数量只能算中等,接下来继续往这个方向探索,构建更大的模型,将会有非常大的意义。

不过,Gato 大模型的 RL 部分只采用了监督学习方法,并未触及强化学习真正的核心——reward 设计机制,目前的任务中也没有多智能体决策的问题。汪军教授表示,他的团队近期在决策大模型上做了很多探索,包括证明多智能体决策也可以是序列模型,相关成果将于近期公布,欢迎大家关注。

Gato 智能体细节

在 Gato 的训练阶段,来自不同任务和模态的数据被序列化为扁平的 token 序列,由一个类似于大型语言模型的 transformer 神经网络进行 batch 和其他处理。由于损失被 masked,Gato 只预测动作和文本目标。

下图为 Gato 的训练流程。

在部署 Gato 时,提示(如演示)被 tokenised,形成了初始序列。接着,环境产生了首个观察结果,该结果也被 tokenised 并添加到序列中。Gato 以自回归的方式对动作向量进行采样,一次只采样一个 token。

一旦包含动作向量的所有 token 都被采样(由环境的动作规范确定),动作被解码并发送给环境,然后逐步产生新的观察结果。重复这一过程。Gato 模型始终在包含 1024 个 token 的上下文环境窗口内查看之前所有的观察结果和动作。

下图展示了将 Gato 部署为控制策略(control policy)的流程。

除了各种自然语言和图像数据集之外,Gato 还在包含模拟和真实环境中智能体经验的大量数据集上进行了训练。

下表 1 左为用于训练 Gato 的控制数据集,右为视觉与语言数据集。样本权重(sample weight)表示每个数据集在训练序列 batch 中平均所占的比例。

Gato 智能体能力

研究者汇总了在以上数据上训练时 Gato 的性能。也就是说,所有任务的所有结果都来自具有一组权重的单一预训练模型。微调结果将在「实验分析」章节展示。

模拟控制任务

下图 5 展示了 Gato 在给定分数阈值之上执行不同控制任务的数量相对于 Gato 训练数据中的专家表现。其中,x 轴上的值表示专家分数的特定百分比,0 对应随机智能体性能。y 轴表示预训练模型的平均性能等于或高于特定百分比时的任务数量。

研究者将性能报告为百分比,其中 100% 对应每个任务的专家,0% 对应于随机策略。对于训练模型的每个模拟控制任务,他们在相应的环境中 roll out Gato 策略 50 次,并对定义的分数进行平均。如下图所示,Gato 以超过 50% 的专家分数阈值执行了 604 个任务中的 450 多个。

在 ALE Atari 中,Gato 在 23 场 Atari 游戏中取得了人类平均(或更高的)分数,在 11 场游戏中取得了两倍于人类的分数。虽然生成数据的单任务在线 RL 智能体依然优于 Gato,但可以通过增加容量或使用离线 RL 训练而非纯监督克服。研究者在文中还介绍了一个专业的单域 ALE Atari 智能体,它在 44 场比赛中都取得比人类更好的分数。

在 BabyAI 中,Gato 在几乎所有级别上都得到了 80% 以上的专家分数。对于最困难的任务 BossLevel,Gato 的得分为 75%。相比之外,另外两个已发布的基准 BabyAI 1.0 和 BabyAI 1.1 分别使用 100 万次演示对该单一任务进行训练,它们的得分不过为 77% 和 90%。

在 Meta-World 中,Gato 在接受训练的 45 个任务中的 44 个中得到了 50% 以上的专家分数,35 个任务上得到 80% 以上,3 个任务上超过 90%。在规范的 DM Control Suite 上,Gato 在 30 个任务中的 21 个上都得到了 50% 以上的专家分数,在 18 个任务上得到 80% 以上。

机器人基准评估

第一视角远程操作可以收集专家演示。然而,此类演示收集起来速度慢成本高。因此,数据高效的行为克隆方法对于训练通用机器人操纵器是可取的,离线预训练成为一个很有动力的研究领域。研究者也在已建立的 RGB Stacking 机器人基准上对 Gato 进行了评估。

RGB Stacking 机器人基准上的技能泛化挑战测试了智能体堆叠以往未见过形状的对象的能力。智能体在一个包含各种形状机器人堆叠对象的 episodes 的数据集上进行训练。但是,五个对象形状的三元组没有包含在训练数据中,而是作为测试三元组。研究者针对真实机器人上的每个测试三元组对训练的 Gato 进行了 200 轮的评估。

下表 2 的结果表明,Gato 在每个测试三元组上的成功率与 Lee 等人(2021)提出的单任务 BC-IMP(filtered BC)基准相当。

文本示例

Gato 智能体也能生成基本对话以及给图像加字幕(或描述)。下图 6 展示了 Gato 为图像加字幕的代表性示例。

下图 7 展示了一些精选的纯文本对话交流示例。

实验分析

下图 8 中,DeepMind 评估了 3 种不同模型大小(以参数计数衡量):79M 模型、364M 模型和 1.18B 模型 (Gato)。可以得出,在相等的 token 数下,随着模型的扩展,模型性能随之提高。

下图 10 将 Gato 在不同微调数据机制中的成功率与 sim-to-real 专家和 Critic-Regularized Regression (CRR) 智能体进行了比较,结果如下:Gato 在现实和模拟中(分别为左图和右图的红色曲线),仅用 10 episodes 就恢复了专家的表现,并在 100 或 1000 episodes 微调数据时达到峰值,超过了专家。在此点之后(在 5000 处),性能会略有下降,但不会远远低于专家的性能。

下表 3 为 Gato 和 BC-IMP 比较结果。

声明

来源 :学术头条 , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

关键词: 语言模型 观察结果

上一篇:
下一篇:
精彩阅读

DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发

热点

在写文章、画图之后,AI大模型现在又同时有了打游戏的能力。

以全系列产品应对多样化需求 亚马逊云科技在数据库市场强势崛起

热点

2021年全球数据库管理系统(DBMS)市场规模达到近800亿美元,同比增长22 3%。

A-SOUL塌房!虚拟偶像不败人设,为何破防?

热点

有人的地方就有江湖,就必然会有纷争。

虚拟偶像「休眠」,字节黄粱梦醒

热点

一旦失去了粉丝的情感链接与用户粘性,虚拟偶像背后的商业价值也将无从谈起。

20家中广电移动分公司已完成注册!

热点

日前,中广电移动网络有限公司已成立20家分公司,作为广电5G业务运营主体公司接连成立并开业运营。

元宇宙大火,AR/VR重新复活,泡沫经济还是科技变革?

热点

几年前一直不温不火的VR和AR,因为元宇宙大风一吹,又立即复活了。

网易上线“视频版知乎”,但第一批用户已经离开了

热点

网易云音乐起步之始,则靠着独创的“网易云村”等功能,硬生生从腾讯音乐口中分食了一大块肉。

罗永浩离职十六年,俞敏洪终于后悔了

热点

一个是背负亿万欠款,只为还债的逆袭者;一个是遭遇重大变故,选择理想的追梦人。

为防诈骗,多地运营商选择关闭接收国际短信……

热点

而最近,各大运营商在多个地区开始实施一个新的举措,从源头上帮助减少遭受电话诈骗和网络诈骗的风险。

专访钉钉:专注价值深耕,开放服务生态——“钉钉,让进步发生”

热点

在疫情形式不容乐观的当下,企业加速数字化转型则显得更为必要。疫情期间,钉钉给予了企业有力的数字化帮助。

财富

IDC:2021年中国边缘计算服务器整体市场规模达到33.1亿美元

资讯

IDC日前发布的《中国半年度边缘计算服务器市场(2021年下半年)跟踪报告》显示,2021年,中国边缘计算服务器整体市场规模达到33 1亿美元,较2

国际数据公司:2021下半年中国金融云市场规模39.0亿美元

资讯

国际数据公司(IDC)最新发布的《中国金融云市场(2021下半年)跟踪》报告显示,2021下半年,中国金融云市场规模达到39 0亿美元。金融客户使用

银河基金聘任宋卫刚为公司新任董事长

资讯

成立于2002年6月的银河基金在迎来20岁生日之际,其新一任掌门人也宣布正式到岗。5月12日,银河基金发布公告表示,聘任宋卫刚为公司新任董事

苹果引入“个性化广告”切换键 关闭应用中的个性化广告

资讯

从 iOS iPadOS 15 开始,苹果在设置过程中引入了一个新的个性化广告(Personalized Ads)切换键,使用户更容易关闭苹果应用中的个性化广

惠而浦(中国)严正声明:与国美电器案件已向北京法院提起诉讼

资讯

随着矛盾公开化,一场惠而浦(中国)和国美电器之间的欠款纠纷备受关注。5月11日晚间,惠而浦(中国)股份有限公司在官方微信号上发布严正声明

屡触质量安全红线!荣事达按摩枕产品抽检不合格

资讯

惜命养生的Z世代逐渐加入按摩小家电市场,助推筋膜枪、颈椎 眼部 腰部按摩仪等按摩小家电产品进入快速发展期。但伴随而来与发展速度不匹配

软银、高瓴、融创接连减持离场,贝壳开启二次上市之路

资讯

5月11日,贝壳正式登陆港交所,首日交易开盘报30港元 股,较发行价30 854港元 股有所下挫。截至晚间收盘,贝壳股价上涨2 5%,报30 75港元

一年内第二度涨价!台积电回应了

资讯

业界传出,晶圆代工龙头台积电昨日通知客户,2023年起全面调涨晶圆代工报价,涨幅约6%,涵盖高端和成熟工艺。这将是台积电一年内第二度涨价

苹果不支持WebR 已成为横亘在普及面前的一座大山

资讯

作为由 Meta、Google、Samsung、Mozilla 和 Magic Leap 等公司联合创建的一种格式,WebXR 有助于在浏览器上实现 AR 体验。但想要随

三星呼吁大规模扩展亚太赫兹频段:支持6G的巨大数据需求

资讯

Wi-Fi 6无线网络这两年已经在新一代手机及路由器中普及,再往后就要进入Wi-Fi 7时代了,今年以来联发科、博通及高通都已经推出了Wi-Fi 7

以全系列产品应对多样化需求 亚马逊云科技在数据库市场强势崛起

2021年全球数据库管理系统(DBMS)市场规模达到近800亿美元,同比增长22 3%。

A-SOUL塌房!虚拟偶像不败人设,为何破防?

有人的地方就有江湖,就必然会有纷争。

虚拟偶像「休眠」,字节黄粱梦醒

一旦失去了粉丝的情感链接与用户粘性,虚拟偶像背后的商业价值也将无从谈起。

20家中广电移动分公司已完成注册!

日前,中广电移动网络有限公司已成立20家分公司,作为广电5G业务运营主体公司接连成立并开业运营。

元宇宙大火,AR/VR重新复活,泡沫经济还是科技变革?

几年前一直不温不火的VR和AR,因为元宇宙大风一吹,又立即复活了。

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住

龙芯中科胡伟武:自主又兼容夯实信息产业“三箭齐发”

龙芯中科董事长胡伟武在线上发表了关于LoongArch生态建设的演讲。胡伟武表示,指令系统是自主信息产业绕不过去的话题,我国不可能基于国外