谷歌称之为“下一代 AI框架”, Pathways真有那么强吗?

2022-04-26 10:44:54   来源:商业新知网

大数据文摘授权转载自夕小瑶的卖萌屋

作者:Severus

今年清明节,Google 搞了一点小动作,在 arxiv 上放出了自己的新工作,PaLM[1] (PaLM: Scaling Language Modeling with Pathways)。

这是自去年,Jeff Dean 谈论下一代 AI,提出 Pathways[2] 架构之后,其第一次秀出了自己的成绩。既然秀肌肉的一件工作,我们不必怀疑,其在各大不同的基准任务上,能展现出什么样的非凡能力。

论文发出之后,各家大V迅速跟进,各种解读铺天盖地,关于它是什么样子的,它的实现细节,它展现了什么样的效果,已不必赘述。今天,我想要谈一谈,Pathways 及其背后的思想,可能会开启什么新的纪元?为什么 Jeff Dean 认为它是下一代的 AI 架构?

缘起:Swtich Transformer

事情还是要回到去年1月份。彼时以 GPT-3 为首,预训练语言模型界刮起了大模型之风。当然,这股风浪到现在也没有过去,千亿级别的大模型,仍然是你方唱罢我登场。而在那个时候,Google 一篇 Switch Transformers[3] 引起了我的注意。说来惭愧,当时我注意到这篇工作,还是因为某公众号提出了“万亿”这一关键词。而彼时由于大模型的风刮了太久,对这种工作我充满了不屑,且 Google 是出了名的“大力出奇迹”,我也仅仅是将其当成了卷出新高度的工作,打开看了一眼。

我承认,我被打脸了,Switch Transformers 想要秀出来的,不只是 Google 的厨力有多强,更在于,他们翻出了一个古老而优美的架构——Geoffrey Hinton 于1991年提出的,混合专家模型[4](Mixture Of Experts,下称 MoE)。

MoE,与我们通常所理解的 DNN模型的很大区别是,其内部不是由一个统一的模型组成,而是由若干个小模型组成,一次计算会使用哪些小模型,由一个稀疏门控系统决定[5]。当时我注意到的是,把大模型变成若干个小模型,技术上的意义则是,计算量会降低,运算效率会变快,自然,模型的总参数量也就可以变得更大。

需要说明的是,在这个时候,我对 MoE 前景的理解是极其浅薄的,那个时候的我根本没有看到,其后面的巨大价值。

而到了去年10月底,也就是 Pathways 发布临近,马后炮地说,我在和同事畅想未来的时候,也提出了类似的设想,并将之放在了我11月的技术分享中,作为“未来篇”的结尾。现在想来,这是一个美好的巧合,从当前 AI 技术的发展步调来看,却也是一个历史的必然。

以我老 CS 人的嗅觉,我发现,MoE 的潜在价值在于其工程思想,这一架构,给多任务,乃至多模态提供了一个新的、且我认为更加靠谱的方向。

无限统合

首先,既然 MoE 的各个专家由稀疏门控制,则专家之间相互可看作是独立的。那么我们就可以做一个非常朴素的猜测,不同的任务,可以由门控系统分配给不同的专家来处理,这样任务之间就不会有太大的影响。这一点个人认为是比较重要的,因为不同的任务,大概率会有相互之间冲突的地方,虽然大模型可以依靠大规模参数所带来的记忆能力,缓解这一问题。

通常多任务学习的前提假设是,多个任务之间,是可以互相增益的,其潜在逻辑在于,多个任务所应用到的知识,存在共通的地方。实际上,预训练模型或预训练特征(word2vec等),就是找到一种看上去所有任务都会用到的自监督特征,使用大量的语料训练出来,保证覆盖,使之在迁移学习上成立。

而独立,则可以真正地让一个系统处理多个任务。

而如我上面所提,那不是就意味着,多个任务之间共通的那部分特征也就独立,造成不必要的冗余了呢?实际上,哪怕只有一个任务输入到 MoE 系统中,也不可能只激活一个专家,单个任务,也有可能同时激活多个专家, 那么,我们是否可以认为,激活的这多个专家,实际上已经把这个任务给拆解开了呢?理想状况下,被激活的各个专家各司其职,分别抽取一部分特征,再通过某种方式结合起来,决定了模型的输出。

那么,多任务场景之下,理想状况下,就可以认为,任务之间共通的知识,由相同的专家学到,而任务之间差异的知识,则由不同的专家捕捉,二者有机结合,形成了一个统合的多任务系统。

说到这,我们就可以把脑洞开的更大一些了,多任务可以解决,多模态能否解决呢?

我认为,Pathways 所代表的思想,是一种更加有力的多模态解决方案。

多模态与 Pathways

当前多模态最大的困境是什么呢?实际上是数据空间无法对齐。以文本与图片为例,请小伙伴们同我思考,当我说出“一匹马”的时候,你的脑海中会想象出多少张图片?

而当我让你描述这样一张图片的时候,你的脑海中又能蹦出多少种描述方式?

我想这两个问题的答案,都是无限,对吧?这也就意味着,通用意义上,或当任务空间足够大的时候,图片和文本数据,是不可能对齐的。数据无法对齐,训练过程中,多模的知识自然也会趋向过拟合式的绑定,这也就意味着,单个 dense 网络结构的多模态模型,仅仅可以处理足够窄场景的多模任务,如某音的短视频搜索。

而到了 MoE 中,如我前面所说,不需要做数据对齐,同时也没有直接去硬性组合最终的输出,而是在中间层的抽象特征上,做了映射和组合。这样一种结构,不敢说通用,至少处理更大场景、更多元的多模任务时,看上去更加合理一些。

那么我们可以大胆设想,预训练-微调可以是这个样子的:训练一个包罗万象的大模型,由这个大模型,则可以导出各种处理专用任务的小模型,这可能才是有钱有算力的机构的使命所在。由于大模型是保罗万象的,内部是由多个独立专家组成的,我们不必再担心 fine-tuning 会破坏模型原本学到的知识,预训练阶段学到的知识也能够得到更好的利用。

最后一部分,我想要从另一个角度,谈一下为什么我相信 Pathways。

从认知科学的角度

人工智能研究的目标之一,是真正做出一个强智能,而由于目前,我们能够参考的唯一一个真正的强智能,只有我们自己,所以接下来,我将以我对人脑粗浅的认识为类比,继续聊一聊 Pathways。

我们继续以多模态为例。首先,人处理信息的时候,一定是多模态的,这个已经是一个常识了。所以多模态也一定是 AI 的趋势。但是,单个 dense 模型的多模态研究,前文已提到,需要的是数据的对齐,而用认知的话来讲,则是用一个感知系统去处理多种感知信号(需要说明的是,这里所说的感知系统与器官不是等同概念)。

是的,人是多模的,但是,人不是这么处理感知信号的,对于不同形式的感知信号,人是有不同的感知系统对应处理的,而同时又有认知系统进一步处理感知信号,形成我们对世界的认知。

人脑是有多个感知系统的,而感知系统之间,又是相对独立的,不同的感知系统有可能分布在不同的脑区。同时,去年我关注到毕彦超老师关于知识的双重编码理论的工作[6],他们的实验结论表明,先天盲人也是能够通过认知系统,学习到“红色”这一概念的,也就说明了,即使对于颜色的感知系统缺失了,人依旧能够学会颜色概念。同时,通过核磁共振成像,也可以观察到,在提到颜色概念时,先天盲人被激活的脑区,和视觉正常的人被激活的脑区,是不一样的。也就说明,感知系统和认知系统也分布在不同的脑区,且相互独立。

这种结构,保证了很好的容错能力。即,人的某一个感知系统出现问题了,一般不会影响到其他的感知系统(双目失明的人同样可以听到声音,尝到味道);而某一感知系统缺失,也可以不影响人的认知。

那么,我们将这些对应到我上文所讲到,Pathways 的前景上,是不是可以说,相比于单纯的堆砌神经元数量,它和目前认知科学所理解到的,大脑的运行机制,非常像呢?不同的感知系统,对应不同的专家网络,而从感知到认知,则在系统中作为抽象特征组合,也由更高层次的专家网络处理,部分通用的知识,也由认知系统存储了下来;且不同的模态,或不同的特征可以缺省,增强了整体的容错能力。从这个角度来看,的确,下一代的智能可能就应该是这个样子的。

我不敢妄言具象的 Pathways 一定就是未来,从最抽象的意义上讲,它提出了一条可行的路径,或许可以通往智能。

当然,做这个东西的大前提是,有钱……

关键词: 认知系统 认知科学

上一篇:
下一篇:
精彩阅读

谷歌称之为“下一代 AI框架”, Pathways真有那么强吗?

热点

我不敢妄言具象的Pathways一定就是未来,从最抽象的意义上讲,它提出了一条可行的路径,或许可以通往智能。

戴尔商用全场景:打开“时空”里的生产力

热点

高效的协同能力,能够加快企业业务效率,提高生产力,而真正意义上的协同,是没有边界的。

数字化助力品牌高质量发展,数说故事受邀出席周大福93周年峰会

热点

4月20日,“同心同德,幸福共创”周大福93周年庆峰会于深圳举办。

黑客攻击白俄罗斯国家铁路系统影响运营

热点

最近,一群黑客声称他们入侵并加密了白俄罗斯国家铁路公司白俄罗斯铁路的服务器。

共109个!河南公布首批数字化转型典型应用场景名单

热点

实施数字化转型战略,深化数字技术应用。

「数据新星」Databricks 崛起启示录

热点

一家独角兽的另辟蹊径。

人工智能应用加持,戴尔科技升级混合办公新体验

热点

什么才是企业员工最想要的智能办公装备?

BAT数字藏品大战,打到太空了

热点

数字藏品已成为国内头部科技公司的兵家必争之地。

朋友圈:十年一觉社交梦

热点

十年过去,朋友圈见证了10亿多用户的成长,也成就了腾讯在移动互联网时代的社交梦。

科大讯飞年报解析:营收日进5000万,连续10年涨幅25%,连续13年分红

热点

疫情当下,绝大多数行业都难逃发展放缓的命运。

财富

超亲石墨烯口罩使用时长是传统一次性口罩的25倍

资讯

一次性口罩生产原材料中的不易降解石化成分让塑料污染治理成为难题,而石墨烯材料的创新应用有望改变这一状况。湖北大学化学化工学院教授博

聚焦“国之大者”,L3级自动驾驶暴露出概念模糊问题

资讯

传统燃油车已有百年发展历史,对产品技术和性能的测试评价十分成熟。而今天,新能源汽车和自动驾驶仍处在成长期,远没有跨入成熟阶段,技术

正积分“双增长”,皆大欢喜

资讯

一年一度的双积分情况公示,再次将积分交易价格波动、政策调整,以及如何与碳交易挂钩和衔接等一系列问题推向风口浪尖。正积分双增长皆大欢

台积电3nm工艺下半年生产,2nm明年量产,2023年没戏

资讯

根据台积电的信息,3nm工艺今年下半年生产,不过明年才能大规模量产,2nm则要到2025年才能量产,这两代工艺的VIP客户都是Intel和苹果,他们

体验经济时代,长虹引领电视产业新发展

资讯

体验经济时代,潜在消费者对产品的体验程度,影响着产品的市场表现力。对于2022年的8K电视来说,体验经济模式带来的效应非常明显。体验改变

全球第一!宁德时代2021年净利润159.31亿元

资讯

4月21日晚间,宁德时代发布2021年财报,数据显示,2021年营业收入约1303 56亿元,同比增加159 06%;归属于上市公司股东的净利润约159 31亿元

13mini不受欢迎 苹果将停产5.4英寸iPhone14mini

资讯

苹果要放弃mini系列是有原因的,因为用户都不是很买单。消费者数据研究机构CIRP的一份新报告展示了iPhone阵营各款手机的销售状况。iPhone

联想承诺2025年全线计算机产品100%含再生塑料

资讯

越来越多的科技公司开始参与环保事业,不仅推进清洁能源,也在加大对再生材料的支持,全球最大的PC厂商联想今天承诺到2025年,全线计算机产

为环保不再标配充电器,苹果被巴西法院罚款

资讯

从iPhone 12系列开始,苹果为环保不再标配充电器,这一举措导致苹果被罚款。4月22日消息,据当地媒体Tecmundo报道,巴西戈亚尼亚市一家法

东微半导体2021年净利润1.47亿元,同比增430.66%

资讯

东微半导体昨日发布2021年年度报告。报告期内,公司实现营业收入7 82亿元,较去年同期相比增加153 28%;归属于上市公司股东的净利润约1 47亿

戴尔商用全场景:打开“时空”里的生产力

高效的协同能力,能够加快企业业务效率,提高生产力,而真正意义上的协同,是没有边界的。

数字化助力品牌高质量发展,数说故事受邀出席周大福93周年峰会

4月20日,“同心同德,幸福共创”周大福93周年庆峰会于深圳举办。

黑客攻击白俄罗斯国家铁路系统影响运营

最近,一群黑客声称他们入侵并加密了白俄罗斯国家铁路公司白俄罗斯铁路的服务器。

共109个!河南公布首批数字化转型典型应用场景名单

实施数字化转型战略,深化数字技术应用。

「数据新星」Databricks 崛起启示录

一家独角兽的另辟蹊径。

龙芯中科胡伟武:自主又兼容夯实信息产业“三箭齐发”

龙芯中科董事长胡伟武在线上发表了关于LoongArch生态建设的演讲。胡伟武表示,指令系统是自主信息产业绕不过去的话题,我国不可能基于国外

锐龙55600G评测:台积电7nm工艺,6核心12线程

自从AMD推出Zen3架构的锐龙5000系列处理器后,在市面上大杀四方,不论是单核性能、多核性能还是游戏性能都远胜于Intel10代和11代酷睿,甚至

欧菲光:公司8P镜头项目已研发成功,目前处于试产阶段

曾经为苹果提供镜头模组的欧菲光今日在互动平台表示,公司团队历经多年技术攻坚,突破高端镜头技术壁垒,一亿像素7P光学镜头已量产,长焦镜

支付宝:处置69375个违规账号和参与“跑分”的账号

4月19日下午,支付宝安全中心官方发布了 关于持续打击电信网络诈骗、租售账号等违规行为的公告 。为保障用户账户安全,营造清澈、安全的

华润啤酒频现“超标排放”环保问题遭罚款

4月18日,北京商报记者在聊城市生态环境局注意到,华润雪花啤酒(聊城)有限公司(以下简称雪花聊城公司)因涉嫌超标排污被聊城市生态环境局罚

Eurocom推出15.6英寸笔记本电脑工作站

Eurocom 正推出 15 6 英寸的 Raptor X15 Mobile Supercomputer,该工作站采用 LGA1700 插槽的英特尔第 12 代桌面处理器。通过最