首页> 热点 >

【世界速看料】DeepMind 最新发文：AlphaZero 的黑箱打开了

2022-11-18 09:55:45 来源：商业新知网

AlphaZero 表明神经网络可以学到人类可理解的表征。

(相关资料图)

国际象棋一直是 AI 的试验场。70 年前，艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”第一次击败人类，但它依赖专家编码人类的国际象棋知识，而诞生于 2017 年的 AlphaZero 作为一种神经网络驱动的强化学习机器实现了图灵的猜想。

AlphaZero 的无需使用任何人工设计的启发式算法，也不需要观看人类下棋，而是完全通过自我对弈进行训练。

那么，它真的学习了人类关于国际象棋的概念吗？这是一个神经网络的可解释性问题。

最近，AlphaZero 的作者 Demis Hassabis 与 DeepMind 的同事以及谷歌大脑的研究员合作了一项研究，在 AlphaZero 的神经网络中找到了人类国际象棋概念的证据，展示了网络在训练过程中获得这些概念的时间和位置，还发现了 AlphaZero 与人类不同的下棋风格。论文近期发表于 PNAS。

论文地址：https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

1、 AlphaZero 在训练中获得人类象棋概念

AlphaZero 的网络架构包含一个骨干网络残差网络（ResNet）和单独的 Policy Head、Value Head，ResNet 由一系列由网络块和跳跃连接（skip connection）的层构成。

在训练迭代方面，AlphaZero 从具有随机初始化参数的神经网络开始，反复与自身对弈，学习对棋子位置的评估，根据在此过程中生成的数据进行多次训练。

为了确定 AlphaZero 网络在多大程度上表征了人类所拥有的国际象棋概念，这项研究使用了稀疏线性探测方法，将网络在训练过程中参数的变化映射为人类可理解概念的变化。

首先将概念定义为如图 1 中橙色所示的用户定义函数。广义线性函数 g 作为一个探针被训练用于近似一个国际象棋概念 c。近似值 g 的质量表示层（线性）对概念进行编码的程度。对于给定概念，对每个网络中所有层的训练过程中产生的网络序列重复该过程。

图 1：在 AlphaZero 网络（蓝色）中探索人类编码的国际象棋概念。

比如，可以用一个函数来确定我方或地方是否有“主教” (♗) ：

当然，还有很多比这个例子更复杂的象棋概念，比如对于棋子的机动性（mobility），可以编写一个函数来比较我方和敌方移动棋子时的得分。

在本实验中，概念函数是已经预先指定的，封装了国际象棋这一特定领域的知识。

接下来是对探针进行训练。研究人员将 ChessBase 数据集中 10 的 5 次方个自然出现的象棋位置作为训练集，从深度为 d 的网络激活训练一个稀疏回归探针 g，来预测给定概念 c 的值。

通过比较 AlphaZero 自学习周期中不同训练步骤的网络，以及每个网络中不同层的不同概念探针的分数，就可以提取网络学习到某个概念的时间和位置。

最终得到每个概念的 what-when-where 图，对 “被计算的概念是什么”、“该计算在网络的哪个位置发生”、“概念在网络训练的什么时间出现” 这三个指标进行可视化。如图2。

图2：从 A 到 B 的概念分别是“对总分的评估”、“我方被将军了吗”、“对威胁的评估”、“我方能吃掉敌方的皇后吗”、“敌方这一步棋会将死我方吗”、“对子力分数的评估”、“子力分数”、“我方有王城兵吗”。

可以看到，C 图中，随着 AlphaZero 变得更强，“threats”概念的函数和 AlphaZero 的表征（可由线性探针检测到）变得越来越不相关。

这样的 what-when-where 图包括探测方法比较所需的两个基线，一是输入回归，在第 0 层显示，二是来自具有随机权重的网络激活的回归，在训练步骤 0 处显示。上图的结果可以得出结论，回归精度的变化完全由网络表征的变化来决定。

此外，许多 what-when-where 图的结果都显示了一个相同的模式，即整个网络的回归精度一直都很低，直到大约 32k 步时才开始随着网络深度的增加而迅速提高，随后稳定下来并在后面的层中保持不变。所以，所有与概念相关的计算都在网络的相对早期发生，而之后的残差块要么执行移动选择，要么计算给定概念集之外的特征。

而且，随着训练的进行，许多人类定义的概念都可以从 AlphaZero 的表征中预测到，且预测准确率很高。

对于更高级的概念，研究人员发现 AlphaZero 掌握它们的位置存在差异。首先在 2k 训练步骤时与零显著不同的概念是“material”和“ space”；更复杂的概念如“king_safety”、“threats”、“mobility”，则是在 8k 训练步骤时显著得变为非零，且在 32k 训练步骤之后才有实质增长。这个结果与图 2 中 what-when-where 图显示的急剧上升的点一致。

另外，大多数 what-when-where 图的一个显著特征是网络的回归精度在开始阶段增长迅速，随后达到平稳状态或下降。这表明目前从 AlphaZero 身上所发现的概念集还只是检测了网络的较早层，要了解后面的层，需要新的概念检测技术。

2、 AlphaZero 的开局策略与人类不同

在观察到 AlphaZero 学习了人类国际象棋概念后，研究人员进一步针对开局策略探讨了 AlphaZero 对于象棋战术的理解，因为开局的选择也隐含了棋手对于相关概念的理解。

研究人员观察到， AlphaZero 与人类的开局策略并不相同：随着时间的推移，AlphaZero 缩小了选择范围，而人类则是扩大选择范围。

如图 3A 是人类对白棋的第一步偏好的历史演变，早期阶段，流行将 e4 作为第一步棋，后来的开局策略则变得更平衡、更灵活。

图 3B 则是 AlphaZero 的开局策略随训练步骤的演变。可以看到，AlphaZero 的开局总是平等地权衡所有选择，然后逐渐缩小选择范围。

图 3：随着训练步骤和时间的推移，AlphaZero 和人类对第一步的偏好比较。

这与人类知识的演变形成鲜明对比，人类知识从 e4 开始逐渐扩展，而 AlphaZero 在训练的后期阶段明显偏向于 d4。不过，这种偏好不需要过度解释，因为自我对弈训练是基于快速游戏，为了促进探索增加了许多随机性。

造成这种差异的原因尚不清楚，但它反映了人类与人工神经网络之间的根本差异。一个可能的因素，或许是关于人类象棋的历史数据更强调大师玩家的集体知识，而 AlphaZero 的数据包括了初学者级别下棋和单一进化策略。

那么，当 AlphaZero 的神经网络经过多次训练后，是否会出对某些开局策略显示出稳定的偏好？

研究结果是，许多情况下，这种偏好在不同训练中并不稳定， AlphaZero 的开局策略非常多样。比如在经典的Ruy Lopez 开局（俗称“西班牙开局”）中，AlphaZero 在早期有选择黑色的偏好，并遵循典型的下法，即 1.e4 e5，2.Nf3 Nc6，3.Bb5。

图 4：Ruy Lopez 开局

而在不同的训练中，AlphaZero 会逐渐收敛到 3.f6 和 3.a6 中的一个。此外，AlphaZero 模型的不同版本都各自显示出对一个动作的强烈偏好，且这种偏好在训练早期就得以建立。

这进一步证明，国际象棋的成功下法多种多样，这种多样性不仅存在于人与机器之间，也存在于 AlphaZero 的不同训练迭代中。

3、 AlphaZero 掌握知识的过程

那么，以上关于开局策略的研究结果，与 AlphaZero 对概念的理解有什么关联呢？

这项研究发现，在各种概念的 what-when-where 图中有一个明显的拐点，与开局偏好的显著变化正好相吻合，尤其是 material 和 mobility的概念似乎与开局策略直接相关。

material 概念主要是在训练步骤 10k 和 30k 之间学习的，piece mobility 的概念也在同一时期逐步融入到 AlphaZero 的 value head 中。对棋子的 material 价值的基本理解应该先于对棋子 mobility 的理解。然后 AlphaZero 将这一理论纳入到 25k 到 60k 训练步骤之间开局偏好中。

作者进一步分析了 AlphaZero 网络关于国际象棋的知识的演变过程：首先发现棋力；接着是短时间窗口内基础知识的爆炸式增长，主要是与 mobility 相关的一些概念；最后是改进阶段，神经网络的开局策略在数十万个训练步骤中得到完善。虽然整体学习的时间很长，但特定的基础能力会在相对较短的时间内迅速出现。

前国际象棋世界冠军 Vladimir Kramnik 也被请来为这一结论提供佐证，他的观察与上述过程一致。

最后总结一下，这项工作证明了 AlphaZero 网络所学习的棋盘表示能够重建许多人类国际象棋概念，并详细说明了网络所学习的概念内容、在训练时间中学习概念的时间以及计算概念的网络位置。而且，AlphaZero 的下棋风格与人类并不相同。

既然我们以人类定义的国际象棋概念来理解神经网络，那么下一个问题将会是：神经网络能够学习人类知识以外的东西吗？

关键词：国际象棋神经网络

上一篇：
下一篇：

精彩阅读

【世界速看料】DeepMind 最新发文：AlphaZero 的黑箱打开了
热点
AlphaZero表明神经网络可以学到人类可理解的表征。

环球微资讯！“清仓式”减持美团，腾讯的下一个“现金奶牛”在视频号？
热点
“腾讯系”和“阿里系”曾经是贴在诸多互联网企业身上的标签，但随着巨头减持加速，这样的标签或将成为历史名词。

【全球时快讯】信安世纪拟收购普世科技完善战略布局
热点
从两家公司的经营业务来看，双方产品和解决方案都属于信息安全领域，具有较强的互补性。

当前滚动:火了的Web3.0概念股，亏了的天地在线
热点
Web3 0概念股火了？请参考元宇宙。

要闻速递：2022（第二十一届）中国互联网大会在深圳召开
热点
近年来，随着网络强国和数字中国战略深入实施，我国互联网产业实现跨越式发展，在经济社会发展中作用日益凸显。

世界看热讯：你觉得：云计算真的让降本增效，创造财富的能力变强了吗？
热点
从云计算出现以来，何止是让各行各业释放了生产力，它已经深刻地变革了人类的生活，成为社会基础生产力。

每日速讯：AIGC内容创意和需求不断攀升，文心大模型带来更多创新探索
热点
在文化热潮之下，百度旗下的AI艺术和创意辅助平台——文心一格应运而生。

环球热资讯！小程序日活破6亿！
热点
财报显示，腾讯第三季度营收1401亿元，同比下滑2%；净利润399 4亿元，同比增长1%。

通过平台构建新生态，金蝶赋能千行百业数字化助力韧性成长
热点
云计算产业在未来几年中，依旧保持着快速增长态势，并成为全球的重要基础设施，无处不在。

2022中国VR 50强
热点
2022年，VR50强营收超亿元的企业数量增长迅速，硬件企业占比领先，4年来平均研发投入比基本保持在50%左右。

财富

融资丨「西湖未来」完成近亿元A轮融资，海康威视领投
资讯
融资丨「西湖未来」完成近亿元A轮融资，海康威视领投,融资资金计划用于产品研发、团队扩张和生产基地建设。

融资丨「龙焱能源」获亿元融资，光智资本领投
资讯
融资丨「龙焱能源」获亿元融资，光智资本领投,融资资金将主要用于技术研发和产线投资建设。

焦点关注：快鲤鱼首发丨「荣灿生物」完成数千万元人民币Pre-A轮融资，某知名医疗健康专业基金领投
资讯
快鲤鱼首发丨「荣灿生物」完成数千万元人民币Pre-A轮融资，某知名医疗健康专业基金领投,本轮融资将助力荣灿生物加速产品研发和团队建设，推进

环球今亮点！“安卓之父”新公司Simple Things获a16z投资丨海外邦
资讯
“安卓之父”新公司SimpleThings获a16z投资丨海外邦,创始人AndyRubin曾因性骚扰丑闻从谷歌离职

腾讯游戏，到了中年焦虑的时候
资讯
腾讯游戏，到了中年焦虑的时候,亦承担着养家糊口的重任。

精选！当我们投资细胞培养肉时，我们在投资什么？
资讯
当我们投资细胞培养肉时，我们在投资什么？,细胞培养肉是操作系统层面的底层创新。

即时：苹果AirDrop：从被玩坏到阉割
资讯
苹果AirDrop：从被玩坏到阉割,AirDrop会成为一代人的青春回忆吗?

报道：售价56元的拿铁配油条，潮牌咖啡懂早餐吗？
资讯
售价56元的拿铁配油条，潮牌咖啡懂早餐吗？,中式早餐会成为各大咖啡馆的标配？

疯狂小杨哥被打假：成也低价，败也低价
资讯
疯狂小杨哥被打假：成也低价，败也低价,地板价的风险

头条：腾讯三周反弹超45%，从三季报看它做对了什么
资讯
腾讯三周反弹超45%，从三季报看它做对了什么,虽然都是在降本增效、聚焦核心，但腾讯的具体做法跟同行大相径庭。

MORE+ 资讯

融资丨「西湖未来」完成近亿元A轮融资，海康威视领投

融资丨「龙焱能源」获亿元融资，光智资本领投

焦点关注：快鲤鱼首发丨「荣灿生物」完成数千万元人民币Pre-A轮融资，某知名医疗健康专业基金领投

环球今亮点！“安卓之父”新公司Simple Things获a16z投资丨海外邦

腾讯游戏，到了中年焦虑的时候

精选！当我们投资细胞培养肉时，我们在投资什么？

即时：苹果AirDrop：从被玩坏到阉割

报道：售价56元的拿铁配油条，潮牌咖啡懂早餐吗？

疯狂小杨哥被打假：成也低价，败也低价

头条：腾讯三周反弹超45%，从三季报看它做对了什么

MORE+ 热点

【世界速看料】DeepMind 最新发文：AlphaZero 的黑箱打开了

环球微资讯！“清仓式”减持美团，腾讯的下一个“现金奶牛”在视频号？

“腾讯系”和“阿里系”曾经是贴在诸多互联网企业身上的标签，但随着巨头减持加速，这样的标签或将成为历史名词。

【全球时快讯】信安世纪拟收购普世科技完善战略布局

从两家公司的经营业务来看，双方产品和解决方案都属于信息安全领域，具有较强的互补性。

当前滚动:火了的Web3.0概念股，亏了的天地在线

Web3 0概念股火了？请参考元宇宙。

要闻速递：2022（第二十一届）中国互联网大会在深圳召开

近年来，随着网络强国和数字中国战略深入实施，我国互联网产业实现跨越式发展，在经济社会发展中作用日益凸显。

世界看热讯：你觉得：云计算真的让降本增效，创造财富的能力变强了吗？

从云计算出现以来，何止是让各行各业释放了生产力，它已经深刻地变革了人类的生活，成为社会基础生产力。

MORE+ 焦点

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨，苹果举行主题为超前瞻的秋季新品发布会，在此次发布会上，备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架提升新老显卡性能

Windows 12系统可能会在2024年到来，按照正常的节奏，其开发工作应该早已秘密进行。日前，有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息，一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap，旨在为盲人和视

2022年情况又要变了！华硕高管：今年PC恐怕要供过于求

这两年来，由于疫情导致的居家办公及远程教育需求爆发，一直在下跌的PC市场枯木逢春，2021年更是创下了2012年以来的最快增长，然而2022年情

垃圾佬的心头好！西数新款固态盘SN740曝光

对于DIY垃圾佬来说，散片、拆机件、工包……这些名词怕是并不陌生。本周，西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足，如果可以背靠巨头享受大树底下好乘凉的红利，那自然是皆大欢喜，没有这个福气，也大可凭借自己一步一个

MORE+ 智能

国内最火新能源中大型轿车数月订单就破10万

苹果iPhone备忘录还有隐藏功能可一键秒变扫描机

新能源汽车在我国异军突起预示着新能源汽车市场巨大增长潜力

苹果召开2022秋季新品发布会全新产品序列登场

中国大力发展新能源汽车产业绝对不会有错

智能家居进入我们生活使万物互联智能家居生活逐渐成为现实

亚马逊云科技助力念力科技打造云游戏解决方案实现全球化部署

特斯拉Semi卡车明年全新内饰谍照曝光：取消换挡拨杆

人的大脑相当于什么级别的CPU？超低功耗的神奇作品

如何“监视”作业本上的笔迹？这支笔告诉你答案

精彩推送

环球微资讯！“清仓式”减持美团，腾讯的下一个“现金奶牛”在视频号？

【世界速看料】DeepMind 最新发文：AlphaZero 的黑箱打开了

融资丨「西湖未来」完成近亿元A轮融资，海康威视领投

融资丨「龙焱能源」获亿元融资，光智资本领投

环球今亮点！“安卓之父”新公司Simple Things获a16z投资丨海外邦

腾讯游戏，到了中年焦虑的时候

焦点关注：快鲤鱼首发丨「荣灿生物」完成数千万元人民币Pre-A轮融资，某知名医疗健康专业基金领投

即时：苹果AirDrop：从被玩坏到阉割

精选！当我们投资细胞培养肉时，我们在投资什么？

报道：售价56元的拿铁配油条，潮牌咖啡懂早餐吗？

暴雪和网易一场没有赢家的分手

每日速讯：腾讯减持美团，影响不大

疯狂小杨哥被打假：成也低价，败也低价

头条：腾讯三周反弹超45%，从三季报看它做对了什么

世界热文：阿里第二季度财报公布：国际商业业务收入增长4%，超市场预期

【全球时快讯】信安世纪拟收购普世科技完善战略布局

每日讯息!一家神秘的中国独角兽，“追杀”奔驰大G

当前滚动:火了的Web3.0概念股，亏了的天地在线

要闻速递：2022（第二十一届）中国互联网大会在深圳召开

2022中国VR 50强

环球热资讯！小程序日活破6亿！

世界看热讯：你觉得：云计算真的让降本增效，创造财富的能力变强了吗？

每日速讯：AIGC内容创意和需求不断攀升，文心大模型带来更多创新探索

通过平台构建新生态，金蝶赋能千行百业数字化助力韧性成长

全球今亮点！火了的Web3.0概念股，亏了的天地在线

让Zara沉默，让H&M流泪，这个国产品牌算是把快时尚玩明白了

全球今头条！普通人加盟喜茶，能赚钱吗？

当折扣店的风吹向盒马们

环球讯息：融资丨「思元医疗」完成数千万人民币融资，博远资本领投

离大谱！微信更新放大招，但这些手机不能用

天天速讯：FinTech头条 | 神州信息信创实践：以科技创新打造数字化安全基座

焦点热文：谁会为Wi-Fi 7技术买单？

VR/AR直播正规化究竟谁说了算？

天天讯息：荣誉时刻｜旺链科技创始人刘涛荣登“中国区块链60人”榜单

每日快播：雪湖资本，不再低调

当前观点：VR万人坑

中国工程院院士郭桂蓉：移动物联网需解决覆盖、应用和产业三大问题

世界今热点：鲁大师：预计2023年鲁大师Pro软件的有效设备数量将超逾25万台

每日报道：详解世界杯营销五大方向：所有品牌，你们准备好了吗？

【快播报】快鲤鱼首发丨诸葛科技完成亿元Pre-D轮战略融资，构建“地图找房”的大流量品类

“外卷”的羽绒服

焦点信息:碾压李佳琦？1亿+粉丝？我怎么从没听说过

27岁的海尔兄弟，IP竟然还没失效

煎熬的餐企

复出2个月，李佳琦捧“小号”上位

简讯：腾讯不想榨干《王者荣耀》

世界关注：视频号会不会是内容创作者的春天？

Netflix溃败前兆：降不下的成本，挡不住的迪士尼

世界今亮点！返乡创业青年：与钱、土地和村民的缠斗

当前滚动:TikTok们鏖战的东南亚，物流行业出现“三通一达”了吗？

前沿热点：我在县城找到了喜茶没落的秘密

菜市场天花板，我提名它

为什么每个商场都在卖新能源车，特斯拉却频频撤店？

环球今日报丨时隔50年，人类即将重返月球

Reddit：测试 NFT 如何被主流接受的完美缩影

世界滚动:丁文华院士：复合宇宙中的XR技术发展思考

全球实时：中国联通刘烈宏：2023年将打造1000家5G全连接工厂

世界微头条丨谁在支撑我们的数字化生活？

近五成中国企业：数据保护管理是云超支的主要领域

深夜食堂点燃千亿夜经济，但宵夜做品牌连锁真的很难

天天快消息！融资丨「亚太医疗」完成数亿人民币A轮融资，IDG资本、人保股权投资联合领投

全球热门:融资丨「南方元」获数千万人民币Pre-A轮融资，衍盈投资领投

世界微速讯：中国电商出海，四大门派拼了

世界观点：融资丨「宇锋智能」完成B+轮融资

视焦点讯！花199元就能买到女性数字人，“不能做得更丰满吗？”

焦点滚动:上海租金5年涨超20% 温州租金一年跌近10%

今亮点！你以为过气的AI画画，网易、灵游坊已经在研发里玩出花了

Meta折戟元宇宙，百度为何要逆势“加仓”？

全球热头条丨WEB3.0，怎么是你，怎么老是你？

【天天报资讯】融资丨「圣域生物」完成超亿元人民币Pre-A轮系列融资，推动DNA损伤修复领域的创新药物研发

天天观点：Meta被曝叫停Portal及智能手表项目；元宇宙UGC平台YAHAHA获4000万美元A+轮融资

世界热议:狠人钟睒睒，“堂吉诃德”式人生

焦点速读：想要省钱的年轻人，被折扣店薅了羊毛

世界热点评！抖音首个破亿粉丝达人，带货被“打假”

快手的抉择：做淘宝的朋友，还是对手？

【时快讯】瑞幸在大江大河中翻身

厦门房价，卷过北上广

视点！“最牛风投城市”盯上直播

全球时讯：14个品牌销售破亿背后，谁在助力国货崛起？

焦点播报:旅游指南《孤独星球》停刊，现在出门全靠小红书

中国首富将大自然的馈赠变成财富密码？

全球快播：喜报！成都引众新认定为四川省“专精特新”中小企业！

环球消息！融资丨「长芽科技acenew」获数千万元A轮融资，蓝微电子等共同投资

环球短讯！融资丨「芯源新材料」获诺延资本和元禾璞华共同领投的数千万Pre-A轮融资

今日讯！什么是信息安全管理体系认证？对企业有什么好处和作用？

当前讯息：融资丨「不停科技」完成近千万美金Pre-A轮融资，德韬资本、清水湾创投共同投资

激光雷达的冬天静悄悄

环球焦点！联邦学习前路如何？杨强：已到“合久必分”的状态

AIoT算法供给困境，何以破解？

全球观速讯丨为什么说“业人一体化”是HR SaaS的新赛点？｜甲子光年

2022年三季度中国IT服务行业A股上市企业归属母公司净利润排行榜：2家净利润超10亿企业，再度蝉联冠亚军（附热榜TOP100详单）

SaaS企业90%收入来自客户成功，国内公司为啥做不到？

【全球报资讯】2000台“汽车机器人”被抢光，集度要做汽车界的“苹果”

快递只剩涨价一条路

环球微速讯：预制菜来了，厨师失业不远了？

世界最资讯丨“数字·进化”丨2022数字化发展峰会重磅启动

天天热消息：红杉下注，碳足迹计量平台Joro完成1000万美元A轮融资丨海外邦

基于GIS的生态安全网络格局构建之主成分分析

全球观察：SaaS服务提供商有赞：亏损较去年减少32.8%，前三季度新增付费商家31591家，门店SaaS的新增付费商家占比约50%

广电5G业务规模化|这个地区这么做