AI好奇心,不只害死猫!MIT强化学习新算法,智能体这回「难易通吃」

2022-11-30 09:57:07   来源:商业新知网

来源:新智元

编辑:David

【导读】 MIT强化学习新算法,根据监督稀疏程度自动调整AI智能体「好奇心」,高低难度任务通吃。

人人都遇见过一个古老的难题。


(相关资料图)

周五晚上,你正试图挑选一家餐厅吃饭,但没有预定。你应该去你最爱的那家人满为患的餐厅排队等位,还是尝试一家新餐厅,希望能发现一些更好吃的惊喜?

后者确实有可能带来惊喜,但这种好奇心驱动的行为是有风险的:你去尝试的那家新餐厅的东西可能会更难吃。

好奇心作为AI探索世界的驱动力,实例已经不胜枚举了——自主导航、机器人决策、优化检测结果等等。

在某些情况下,机器使用「强化学习」来完成一个目标,在这一过程中,AI智能体从被奖励的好行为和被惩罚的坏行为中反复学习。

就像人类在选择餐厅时面临的困境一样,这些智能体也在努力平衡发现更好的行动(探索)的时间和采取过去导致高回报的行动(利用)的时间。

太强的好奇心会分散智能体的注意力,无法做出有利的决定,而好奇心太弱,则意味着智能体永远无法发现有利的决定。

为了追求使AI智能体具有「恰到好处」的好奇心,来自麻省理工学院计算机科学与AI实验室(CSAIL)的研究人员创造了一种算法,克服了AI过于「好奇」和被手头的任务分散注意力的问题。

他们研究出的算法会在需要时自动增加好奇心,如果智能体从环境中得到足够的监督,已经知道该怎么做,则降低好奇心。

论文链接:

https://williamd4112.github.io/pubs/neurips22_eipo.pdf

经过60多个视频游戏的测试,该算法能够在不同难度的探索任务中取得成功,而以前的算法只能单独解决简单或困难难度。这意味着AI智能体可以使用更少的数据来学习决策规则,达到激励最大化。

「如果你很好地掌握了探索-开发之间权衡,就能更快地学习正确的决策规则,而任何不足之处都需要大量的数据,这可能意味着产生的结果是非最优的医疗方案,网站的利润下降,以及机器人没有学会做正确的事情。」

该研究带头人之一、麻省理工学院教授兼Improbable AI实验室主任Pulkit Agrawal说。

好奇心,不只害死猫!

我们似乎很难从心理学角度解释好奇心的心理基础,对于这种寻求挑战的行为的潜在神经学原理,我们一直没有深入理解。

有了强化学习,这个过程在情感上被「修剪」了,将这个问题剥离至最基本的层面,但在技术实现上却相当复杂。

从本质上讲,智能体只应该在没有足够的监督来尝试不同的事情时才会有好奇心,如果有监督,它必须调整好奇心,降低好奇心。

在测试游戏任务中,很大一部分是小智能体在环境中跑来跑去寻找奖励,并执行一长串的行动来实现一些目标,这似乎是研究人员算法的逻辑测试平台。

在《马里奥赛车》和《蒙特祖玛的复仇》等游戏实验中,研究人员将上述游戏分为两个不同类别:

一种监督稀疏的环境,智能体获得的指导较少,也就是「困难」的探索游戏;另一种是监督更密集的环境,即「简单」的探索游戏。

假设在《马里奥赛车》中,只删除所有的奖励,你不知道什么时候敌人杀了你。当你收集一个硬币或跳过管道时,不会得到任何奖励。智能体只有在最后才被告知其表现如何。这就属于稀疏监督环境,也就是困难任务。在这种任务中,激励好奇心的算法表现非常好。

而如果智能体处于密集监督环境,也就是说,跳过管道、收集硬币和杀死敌人都有奖励,那么,表现最好的就是完全没有好奇心的算法,因为经常得到奖励,只要照着走流程就行了,不需要额外探索就能收获颇丰。

这里如果使用激励好奇心的算法,学习速度会很慢。

因为好奇心强的智能体,可能会试图以不同的方式快速奔跑,到处乱逛,走遍游戏的每一个角落。这些事情都很有趣,但并不能帮助智能体在游戏中取得成功,获得奖励。

如前文所言,在强化学习中,一般用激励好奇心和抑制好奇心的算法,来分别对应监督稀疏(困难)和监督密集(简单)任务,不能混用。

这一次,MIT团队的新算法始终表现良好,无论是在什么环境中。

未来的工作可能涉及回到多年来令心理学家高兴和困扰的探索:好奇心的适当衡量标准--没有人真正知道从数学上定义好奇心的正确方法。

MIT CSAIL博士生Zhang Weihong说:

通过改进探索算法,为你感兴趣的问题调整算法。我们需要好奇心来解决极具挑战性的问题,但在某些问题上,好奇心会降低性能。我们的算法消除了调整「探索和利用」的平衡负担问题。

以前要花一个星期来解决的问题,新算法可以在几个小时内就得到满意的结果。

他与麻省理工学院CSAIL工程硕士、22岁的Eric Chen是关于这项工作的新论文的共同作者。

卡内基梅隆大学的教师Deepak Pathak说:

「像好奇心这样的内在奖励机制,是引导智能体发现有用的多样化行为的基础,但这不应该以在给定的任务中做得好为代价。这是AI中的一个重要问题,这篇论文提供了一种平衡这种权衡的方法。看看这种方法如何从游戏扩展到现实世界的机器人智能体上,将是很有趣的一件事。」

加州大学伯克利分校心理学特聘教授和哲学副教授Alison Gopnik指出,当前AI和认知科学的最大挑战之一,就是如何平衡「探索和利用」,前者是对信息的搜索,后者是对奖励的搜索。

「这篇论文使用了令人印象深刻的新技术来自动完成这一工作,设计了一个能够系统地平衡对世界的好奇心和对奖励的渴望的智能体,让AI智能体朝着像真正的儿童一样聪明的方向,迈出了重要一步。」他说。

声明

来源 :新智元 , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

关键词: 强化学习 麻省理工学院

上一篇:
下一篇:
精彩阅读

AI好奇心,不只害死猫!MIT强化学习新算法,智能体这回「难易通吃」

热点

MIT强化学习新算法,根据监督稀疏程度自动调整AI智能体「好奇心」,高低难度任务通吃。

看热讯:5G+速 移路领先终端先行助推5G规模发展

热点

当技术源头与产品载体实现了“双向奔赴”,5G为更多业态提供动力、为更多人的生活带来改变的能量才更加澎湃。

当前快报:谈投资、腾讯合作、900M!中国联通Q3说明会八大亮点

热点

中国联通从铺路走向赋能,勇当数字经济发展的国家队、主力军和排头兵。

通讯!湖北广电建设运营国家文化大数据华中区域云平台落户武汉超算中心

热点

11月23日下午,湖北省委副书记、省长王忠林调研光谷科创大走廊建设,并召开现场推进会,宣布武汉超算中心正式投运。

江苏广电5G第50万个192手机用户诞生

热点

11月25日,江苏省第50万个广电5G192手机用户在南京太平北路营业厅惊喜诞生。

广电5G+智慧项目发展规划,江苏有线在调研座谈会上提出新要求

热点

11月21日,江苏有线党委书记、董事长姜龙到江阴分公司调研智慧广电项目建设情况。

制胜产业互联网下半场,紫菜云携手广大基建服务商链式上云

热点

近年来,产业互联网的发展已成为推进数字化转型、加快高质量发展的有力抓手。

当前通讯!解读Web3.0的意识形态:密码学、分布式系统与博弈论 | 微观察

热点

区块链之于Web3就像蒸汽机之于工业革命,这一底层技术革新驱动了新机制的诞生。

最新快讯!AI模仿齐白石画“钢铁虾”,版权归谁,算抄袭吗

热点

人类现在能创作的内容,AI都可以有所助力。

财富

闲鱼卖二手,破财难消灾

资讯

闲鱼卖二手,破财难消灾,​一手好牌打烂。

今日热议:就算把老干妈画成辣妹,AI还是玩不过人类

资讯

就算把老干妈画成辣妹,AI还是玩不过人类,在AI手里,老干妈都能变辣妹

世界杯的狂欢,BAT却缺席了

资讯

世界杯的狂欢,BAT却缺席了,在世界杯这场全球盛事上,球很重要,但更重要的是背后的商业价值。

全球视讯!为什么明星的商业版图这么好扒?

资讯

为什么明星的商业版图这么好扒?,商查平台的本质,

张兰的5000万带货“剧本”

资讯

张兰的5000万带货“剧本”,你大妈永远是你大妈。

全球讯息:年均千条专利背后,长短视频要靠弹幕赚钱了

资讯

年均千条专利背后,长短视频要靠弹幕赚钱了,大概很快就会有一天,观众们又需要开始学会分辨弹幕里到底哪条是真人发言的而哪条又是广告了。

得罪女性还能挣钱,婚恋博主的另类生意

资讯

得罪女性还能挣钱,婚恋博主的另类生意,婚恋市场上,谁不稀缺就不怕得罪谁。

热推荐:彩票站:年轻人的精神卡塔尔

资讯

彩票站:年轻人的精神卡塔尔,来吧,买个“希望”

全球消息!我不是董宇辉

资讯

我不是董宇辉,珠玉在前,瓦石难当。

麦当劳疯狂降价,能留下你的嘴吗

资讯

麦当劳疯狂降价,能留下你的嘴吗,这顿吃什么,听你的。

看热讯:5G+速 移路领先终端先行助推5G规模发展

当技术源头与产品载体实现了“双向奔赴”,5G为更多业态提供动力、为更多人的生活带来改变的能量才更加澎湃。

当前快报:谈投资、腾讯合作、900M!中国联通Q3说明会八大亮点

中国联通从铺路走向赋能,勇当数字经济发展的国家队、主力军和排头兵。

通讯!湖北广电建设运营国家文化大数据华中区域云平台落户武汉超算中心

11月23日下午,湖北省委副书记、省长王忠林调研光谷科创大走廊建设,并召开现场推进会,宣布武汉超算中心正式投运。

江苏广电5G第50万个192手机用户诞生

11月25日,江苏省第50万个广电5G192手机用户在南京太平北路营业厅惊喜诞生。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个