用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA

2023-08-24 11:15:25   来源:商业新知网

来源:新智元

UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言。

[导读] 智能体如何从不同的语言中理解世界?近日,来自UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言。

现在,基于强化学习的智能体已经可以轻松地执行诸如「捡起蓝色积木」这类的指令。


(资料图)

但人类大部分时间的语言表达,却远远超出了指令的范围。比如:「我们好像没有牛奶了」......

而智能体想要学习这类语言在世界中的含义,是非常困难的。

对此,来自UC伯克利的研究团队认为,我们实际上可以利用这些语言,来帮助智能体更好地对未来进行预测。

论文地址:

https://arxiv.org/pdf/2308.01399.pdf

具体来说,研究人员提出了一种全新的智能体——Dynalang。

与仅用语言预测动作的传统智能体不同,Dynalang通过使用过去的语言来预测未来的语言、视频和奖励,从而获得丰富的语言理解。

除了在环境中的在线交互中学习外,Dynalang还可以在没有动作或奖励的情况下在文本、视频或两者的数据集上进行预训练。

也就是说,新的智能体这时再听到「我们没有牛奶了」,就能get到这句话意思是「冰箱里的牛奶喝完了」。

工作原理

使用语言来理解世界自然而然地适合于世界建模范式。

Dynalang以基于模型的RL智能体DreamerV3为基础,并可利用其在环境中动作时所收集到的经验数据,不断地进行学习。

左:世界模型在每个时间步将文本和图像压缩为潜在表征。在这个表征中,模型被训练以重构原始观察结果,预测奖励,并预测下一个时间步的表征。直观地说,世界模型学会了在给定文本中所读内容的情况下,应该期望在世界中看到什么。

右:Dynalang通过在压缩的世界模型表征基础上训练策略网络来选择动作。它在世界模型的想象中反复进行训练,从而学会采取最大化预测奖励的动作。

与之前一次处理一个句子或段落的多模态模型不同,Dynalang将视频和文本作为一个统一的序列进行建模,一次处理一个图像帧和一个文本token。

直观地说,这更像是人类在现实世界中接收输入的方式。

将所有内容都建模为一个序列,就可以像语言模型一样在文本数据上进行预训练,从而提高强化学习的性能。

语言提示

为了评估智能体在环境中的表现,研究人员引入了HomeGrid。其中,智能体除了任务指令外,还会收到语言提示。

HomeGrid中的提示,不仅模拟了智能体可能从人类那里学到的知识或从文本中读到的信息,而且还提供了有用但不是解决任务所必需的信息:

「未来观察」:描述智能体在未来可能观察到的情况,例如「盘子在厨房里」。

「纠正」:根据智能体正在执行的任务的提供交互式反馈,例如「转过身去」。

「动态」:描述环境的动态,例如「踩踏板打开堆肥箱」。

虽然智能体并未接受过明确的指导来分辨观察结果和文本的对应关系。但Dynalang仍能通过未来的预测目标,学会将各种类型的语言与环境联系起来。

结果显示,Dynalang要明显优于以语言为条件的IMPALA和R2D2。

后者不仅在使用不同类型的语言时非常吃力,而且在使用指令以外的语言时表现得更差。

游戏评估

在Messenger游戏环境中,研究人员测试了智能体是如何从较长且更复杂的文本中学习的,这需要在文本和视觉观察之间进行多跳推理。

智能体必须对描述每个情节动态的文本说明进行推理,并将其与环境中的实体观察结合起来,以确定从哪些实体获取消息和避开哪些实体。

结果显示,Dynalang的表现要明显优于IMPALA和R2D2,以及使用专门架构对文本和观察结果进行推理任务优化的EMMA基准,尤其是在最困难的第3阶段。

指令跟随

Habitat的测试结果表明,Dynalang能够处理逼真的视觉观察并执行指令。

也就是,智能体需要按照自然语言的指令,导航到家中的目标位置。

在Dynalang中,指令跟随可以通过将其视为未来奖励预测,来在相同的预测框架中统一处理。

语言生成

就像语言会影响智能体对所见事物的预测一样,智能体观察到的事物也会影响它期望听到的语言(例如,关于所见事物的真实陈述)。

通过在LangRoom中将语言输出到动作空间中,Dynalang可以生成与环境相关联的语言,从而执行具体的问题回答。

文本预训练

由于使用语言建立世界模型与使用世界模型学习动作是分开的,因此Dynalang可以在没有动作或奖励标签的情况下使用离线数据进行预训练。

这种能力使Dynalang能够从大规模的离线数据集中受益,所有这些数据集都在单一模型架构内。

研究人员使用纯文本数据对Dynalang进行预训练,并从头开始学习token嵌入。

模型在通用文本数据(TinyStories,200万个短故事)上进行预训练之后,可以提高Messenger下游RL任务的表现,甚至超过了使用预训练的T5嵌入。

尽管这项工作的重点是让智能体能够理解语言并采取行动,但其实也可以像纯文本语言模型一样生成文本。

研究人员在潜空间中对预训练的TinyStories模型进行了抽样推演,并在每个时间步骤从表征中解码出token观察。

结果显示,模型生成的结果具有令人惊讶的一致性,不过在质量上仍然低于SOTA的语言模型。

不过由此也可以看出,将语言生成和行动统一到单一的智能体架构中,是一个很有趣的研究方向。

作者介绍

Jessy Lin

论文一作Jessy Lin,是加州大学伯克利分校人工智能研究院(Berkeley AI Research)的三年级博士生,由Anca Dragan和Dan Klein指导。

她的研究方向是构建能与人类合作和互动并以语言为媒介的智能体。此外,她还对对话以及语言+强化学习非常感兴趣。目前,她的研究得到了苹果人工智能奖学金的支持。

她在麻省理工学院获得了计算机科学和哲学双学位。在那里,她与计算认知科学小组合作,在Kelsey Allen和Josh Tenenbaum的指导下进行人类启发式人工智能研究,同时作为labsix的创始成员从事机器学习安全研究。

此外,她还曾在Lilt从事人机协作机器翻译/专家翻译的Copilot研究和产品开发。

关键词:

精彩阅读

用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA

热点

UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模

选择你的道路:LLM 时代指南

热点

Interpretability自然是希望解释大模型的行为,从而达到可控性,才能真

近期加密市场“大跌”,如何调整仓位?

热点

近期市场上唯一的热点似乎只剩下一个新涌现的FriendTech。

用友与10家数科公司签约,共建行业数智化新生态

热点

为提升数科公司IT运营能力,并共同推动央国企,以及行业数智化转型。

大模型下一步,通用群体智能有谱了 | CCF C³

热点

从大模型底层来看,发展趋势重点是资源同步。

从虚拟偶像到虚拟主播,一场TO C到 TO B生意的大迁徙

热点

6000多家企业竞逐虚拟人赛道,提技术和降成本是关键。

大模型重构见效!百度净利大涨44%,李彦宏:这是重大市场机会

热点

生成式AI和大语言模型在许多行业具有巨大变革能力,为我们提供了重大的

再创佳绩!百度净利润同比增长44%:业务驶入强劲增长的快车道

热点

8月22日,百度发布了截至2023年6月30日的第二季度未经审计的财务报告。

唱吧创始、CEO陈华:下一个互联网形态是“空间互联网”

热点

如何关注潮水变革的方向,见证科技为美好生活带来的无限可能至关重要。

财富

1家只有1个人的公司,年赚1个亿!

资讯

1家只有1个人的公司,年赚1个亿!,“盖哥”和他的公司能给创业者哪些启

OpenAI向美国专利局提交“GPT-5”商标申请

资讯

OpenAI向美国专利局提交“GPT-5”商标申请,7月31日,美国商标律师JoshG

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产

资讯

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产,8月1日消息,澳

部分新款iPhone或推迟至10月以后发售

资讯

部分新款iPhone或推迟至10月以后发售,由于OLED屏的量产推迟,部分新机

恒大地产:所有存续公司债将继续停牌

资讯

恒大地产:所有存续公司债将继续停牌,恒大地产发布公告称,为保证公平

马斯克将领导X平台的产品及工程师团队

资讯

马斯克将领导X平台的产品及工程师团队,社交媒体平台X(前身为推特)表

多个AIGC应用在苹果应用商店下架

资讯

多个AIGC应用在苹果应用商店下架,包括讯飞星火在内的多个AIGC相关App,

上汽集团:7月份上汽销售新能源汽车9.1万辆

资讯

上汽集团:7月份上汽销售新能源汽车9 1万辆,据上汽集团官微,据初步统

京东回复收购永辉传闻:目前没有这个意向

资讯

京东回复收购永辉传闻:目前没有这个意向,针对“京东洽谈收购永辉”的

选择你的道路:LLM 时代指南

Interpretability自然是希望解释大模型的行为,从而达到可控性,才能真

近期加密市场“大跌”,如何调整仓位?

近期市场上唯一的热点似乎只剩下一个新涌现的FriendTech。

用友与10家数科公司签约,共建行业数智化新生态

为提升数科公司IT运营能力,并共同推动央国企,以及行业数智化转型。

大模型下一步,通用群体智能有谱了 | CCF C³

从大模型底层来看,发展趋势重点是资源同步。

大湾区首座“华龙一号”三代核电项目——广东太平岭核电2号机组内穹顶封顶

广东太平岭核电2号机组内穹顶封顶(主题)人民日报广州8月23日电(记者

真的恨呢!哈登社媒直接取关了莫雷

美媒NBAAlerts发现,76人球星哈登已经取消关注了莫雷。此前哈登公开炮

华能国际08月23日获沪股通增持142.67万股

08月23日,华能国际获沪股通增持万股,最新持股量为亿股,占公司A股总

MiniLED板块8月23日跌2.36%,探路者领跌,主力资金净流出6.03亿元

8月23日MiniLED板块较上一交易日下跌2 36%,探路者领跌。当日上证指数

新捷达什么颜色好看(全新捷达配什么颜色的内饰)

1、官方给出的信息:全新捷达的内饰有黑色和米色两种颜色风格,黑色内

亿利达: 独立董事关于控股股东及其他关联方占用公司资金、公司对外担保情况的专项说明和独立意见

亿利达:独立董事关于控股股东及其他关联方占用公司资金、公司对外担保