首页> 热点 >

这个赛车AI不再只图一时爽，学会了考虑长远策略

2022-03-23 10:55:33 来源：商业新知网

玩赛车游戏的AI们现在已经不仅仅是图快图爽了。

他们开始考虑战术规划，甚至有了自己的行车风格和“偏科”项目。

比如这位只擅长转弯的“偏科”选手，面对急弯我重拳出击，惊险漂移，面对直线我唯唯诺诺，摇晃不停：

还有具备长远目光，学会了战术规划的AI，也就是这两位正在竞速的中的绿色赛车，看似在转弯处减缓了速度，却得以顺利通过急弯，免于直接GG的下场。

还有面对不管是多新的地图，都能举一反三，跑完全程的AI。

看起来就像是真的在赛车道上学会了思考一样。

（甚至上面所说的那位偏科选手还在不懈努力后成功逆袭了）

这项训练结果一经公布，便吸引了大批网友的围观：

强化学习让AI学会“长远考虑”

训练赛道来自一款叫做《赛道狂飙》（Trackmania）的游戏，以可深度定制的赛道编辑器闻名于玩家群体。

为了更大程度上激发赛车AI的潜力，开发者自制了这样一张九曲十八弯的魔鬼地图：

这位开发者名叫 yoshtm ，之间就已经用AI玩过这款游戏，一度引发热议：

一开始，yoshtm采用的是一种监督学习模型，拥有2个隐藏层。

模型包含了16个输入，包括如汽车当前速度、加速度、路段位置等等，再通过神经网络对输入参数进行分析，最终输出6种动作中的一种：

基于这一模型架构，开发者让多只AI在同一张地图上竞争。

通过多次迭代，不同AI的神经网络会出现细微的差别，结果最好的AI将最终脱颖而出。

这种方法确实能让AI学会驾驶，不过也带来了一个问题：

AI常常只能以速度或最终冲线的时间等单一指标来评估自己，难以更进一步。

这次，时隔两年后的赛车AI，不仅学会了从长远出发制定策略（比如在急弯时对速度作出调整），还大幅提高了对新地图的适应性。

主要原因就来自于开发者这次引入的新方法，强化学习。

这种方法的核心概念是“奖励”，即通过选择带来更多奖励的行为，来不断优化最终效果。

在训练赛车游戏中的AI时，yoshtm定义的奖励很常规：速度越快奖励越多，走错路或掉下赛道就会惩罚。

但问题是，一些行动，比如在临近转弯时的加速或许能导致短期的正面奖励，但从长远来看却可能会产生负面的后果。

于是，yoshtm采用了一种叫做 Deep Q Learning 的方法。

这是一种无模型的强化学习技术，对于给定状态，它能够比较可用操作的预期效用，同时还不需要环境模型。

Deep Q Learning会通过深度网络参数的学习不断提高Q值预测的准确性，也就是说，能够使AI在赛车游戏中预测每个可能的行动的预期累积奖励，从而“具备一种长远的策略目光”。

随机出生点帮AI改正“偏科”

接下来开始进行正式训练。

yoshtm的思路是，AI会先通过随机探索来尽可能多地收集地图数据，他将这一行为称之为探索。

探索的比例越高，随机性也就越强，而随着比例降低，AI则会更加专注于赢取上述设置的奖励，也即专注于跑图。

不过，在训练了近3万次，探索比例降低到5%时，AI“卡关”了：

核心问题是AI出现了“偏科”。

由于前期经历了多个弯道的跑图，所以AI出现了过拟合现象，面对长直线跑道这种新的赛道类型，一度车身不稳，摇摇晃晃，最终甚至选择了“自杀”：

要如何解决这个问题呢？

yoshtm并没有选择重新制作地图，而是选择修改AI的出生点：

每次开始训练时，AI的出发点都将在地图上的一个随机位置生成，同时速度和方向也会随机。

这一办法立竿见影，AI终于开始能够完整跑完一条赛道了。

接下来就是进行不断训练，最终，开发者yoshtm和AI比了一场，AI在这次跑到了最好成绩： 6分20秒。

虽然还是没有真人操控的赛车跑得快，不过AI表现出了较强的场地适应性，对草地还是泥地都能立马举一反三。

yoshtm最后这样说道：

《赛车狂飙》本来就是一个需要大量训练的游戏，AI当然也如此。
至少我现在很确定，这个AI可以打败大量的初学者。

关键词：强化学习神经网络

精彩阅读

这个赛车AI不再只图一时爽，学会了考虑长远策略

热点

玩赛车游戏的AI们现在已经不仅仅是图快图爽了。

智算赛道，水大鱼大：取势，明道，优术

热点

历史不会重复，但却常常押韵。

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

热点

由中科院，腾讯AI实验室以及香港中文大学联合出品的硬核对抗训练的新作LAS-AT发表于CVPR2022。

“热钱”洒向数据库，耐力比拼进行时

热点

道阻且艰，行则将至。

数实相融浪潮信息策马扬鞭奔向“绿色未来”

热点

计算力就是生产力，这无疑是人类社会发展过程当中因技术创新而带来的时代变化。

钉钉开始直面商业化

热点

钉钉在今天用线上的方式举办了2022年最重要的发布会——“科技向实万物生长”2022钉钉发布会。

工信部：截至2月底，IPTV总用户数达3.57亿户

热点

3月21日，工信部运行监测协调局发布2022年1—2月份通信业经济运行情况。

四家运营商薪资福利大对比，谁能更胜一筹？

热点

中国移动、中国电信、中国联通、中国铁塔纷纷携下属子公司和专业机构，启动2022年度校园招聘活动。

彻底告别“个性化体验”，隐私和体验哪个重要？

热点

算法本身是没有问题的，但如何在用户满意度和产品核心竞争力之间取得一个平衡，才是当下开发者们应该重视的点。

清华大学孙茂松：自然语言处理一瞥，知往鉴今瞻未来

热点

自然语言处理一路走来至今日，形成了“力大者为王”和“智深者为上”两条道路。

财富

315曝光台：美团、去哪儿相继被曝出大数据“杀熟”

资讯

近日，315曝光台上，美团和去哪儿相继被曝出大数据杀熟。今年3月3日，一位匿名用户在黑猫平台上对在线旅游平台去哪儿发起投诉，他已经在

大数据时代，如何保护个人信息？

资讯

一、大数据时代个人隐私数据泄露已成为全球重大的社会问题随着信息技术的飞速发展，数据化生存已逐渐成为人类社会运行的常态，数据在公共管

3月LPR报价公布：1年期3.7%5年期以上4.6%

资讯

3月LPR(贷款市场报价利率)如期公布。3月21日，中国人民银行授权全国银行间同业拆借中心公布，2022年3月21日LPR)：1年期为3 7%，5年期以上为

郭明錤：iPhone14系列“新瓶旧酒”是一种营销策略

资讯

郭明錤认为，iPhone 14系列新瓶旧酒的做法，其实是一种营销策略和财务导向的决策。3月20日消息，天风国际分析师郭明錤在社交媒体表示，iPh

猝不及防！比亚迪、小鹏等车企宣布涨价

资讯

这波新能源汽车涨价潮让人猝不及防。比亚迪、小鹏等车企宣布涨价之后，昨晚也在官网宣布，将对在售车型价格进行调整，综合补贴后售价上调幅

特斯拉推送四大新功能：空调功能更新、新增语言支持

资讯

近日，特斯拉推送了2022 8 2版本OTA升级，带来了四大新功能，包括空调功能更新、更加精准的预计充电时间、正在进行的通话更新、以及新增语

企业：做电商专供家电是为了渠道差异化

资讯

在嗅觉敏锐的华强北商人眼中，食品正在成为这里的新标签。3月2日，时代财经来到深圳华强北实地探访发现，华强北的几大主要商场如今都已有了

做不做高端，厨电企业摁下“高端键”背后有何深意？

资讯

中国人对厨房和烹饪的关注历史是源远流长的，一张餐桌的背后演绎着国民经济的发展脉络，也展示着居民生活水平的不断提高，而对于厨电企业而

清洁电器行业又迎来新品类，如何布局？

资讯

继洗地机之后，清洁电器行业又迎来了一个新品类。近期，中国家电网记者注意到了某品牌推出了一款名为多功能蒸汽清洁器的产品，据了解该产品

废旧家电回收体系亟待完善

资讯

我国家电行业已从增量市场转为存量市场，家电保有量已超过21亿台。如今我国家电需求以换新为主，每销售一台家电新品就要处理一台废旧电器，

MORE+ 资讯

MORE+ 热点

这个赛车AI不再只图一时爽，学会了考虑长远策略

智算赛道，水大鱼大：取势，明道，优术

历史不会重复，但却常常押韵。

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

由中科院，腾讯AI实验室以及香港中文大学联合出品的硬核对抗训练的新作LAS-AT发表于CVPR2022。

“热钱”洒向数据库，耐力比拼进行时

道阻且艰，行则将至。

数实相融浪潮信息策马扬鞭奔向“绿色未来”

计算力就是生产力，这无疑是人类社会发展过程当中因技术创新而带来的时代变化。

钉钉开始直面商业化

钉钉在今天用线上的方式举办了2022年最重要的发布会——“科技向实万物生长”2022钉钉发布会。

这个赛车AI不再只图一时爽，学会了考虑长远策略

强化学习让AI学会“长远考虑”

随机出生点帮AI改正“偏科”

这个赛车AI不再只图一时爽，学会了考虑长远策略

智算赛道，水大鱼大：取势，明道，优术

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

“热钱”洒向数据库，耐力比拼进行时

数实相融浪潮信息策马扬鞭奔向“绿色未来”

钉钉开始直面商业化

工信部：截至2月底，IPTV总用户数达3.57亿户

四家运营商薪资福利大对比，谁能更胜一筹？

彻底告别“个性化体验”，隐私和体验哪个重要？

清华大学孙茂松：自然语言处理一瞥，知往鉴今瞻未来

315曝光台：美团、去哪儿相继被曝出大数据“杀熟”

大数据时代，如何保护个人信息？

3月LPR报价公布：1年期3.7%5年期以上4.6%

郭明錤：iPhone14系列“新瓶旧酒”是一种营销策略

猝不及防！比亚迪、小鹏等车企宣布涨价

特斯拉推送四大新功能：空调功能更新、新增语言支持

企业：做电商专供家电是为了渠道差异化

做不做高端，厨电企业摁下“高端键”背后有何深意？

清洁电器行业又迎来新品类，如何布局？

废旧家电回收体系亟待完善

MORE+ 资讯

MORE+ 热点

这个赛车AI不再只图一时爽，学会了考虑长远策略

智算赛道，水大鱼大：取势，明道，优术

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

“热钱”洒向数据库，耐力比拼进行时

数实相融浪潮信息策马扬鞭奔向“绿色未来”

钉钉开始直面商业化

MORE+ 焦点

为户外劳动者提供便利重庆已建成665座“劳动者港湾”

沈阳警方侦破特大贩卖毒品案抓获88名涉毒违法犯罪嫌疑人

上海警方侦破特大制售假普洱茶案市场价值高达18亿元

西安强化知识产权司法保护商标权案件占比高

今年5月至明年2月底江西4A级及以上景区对全国学子免门票

福州乡村公益图书馆：图书“接地气” 门口即是农田

MORE+ 智能

精彩推送