比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤 当前快看

2023-05-30 18:42:05   来源:创业邦

Transformer最近几年已然成为大模型的标配,而Meta团队开发的一款Megabyte模型声称能解决Transformer的硬伤,速度还要快四成。

编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:Joey,创业邦经授权转载,头图来源摄图网


(资料图片)

Transformer无疑是过去几年内机器学习领域最流行的模型。

自2017年在论文「Attention is All You Need」中提出之后,这个新的网络结构,刷爆了各大翻译任务,同时创造了多项新的记录。

但Transformer在处理长字节序列时有个硬伤,就是算力损耗严重,而Meta的研究人员的最新成果则可以很好地解决这一缺陷。

他们推出了一种全新的模型架构,能跨多种格式生成超过100万个token,并超越GPT-4等模型背后的现有 Transformer架构的功能。

这个模型被称为「兆字节」(Megabyte),是一种多尺度解码器架构(Multi-scale Decoder Architecture),可以对超过一百万字节的序列进行端到端可微分建模。

论文链接:https://arxiv.org/abs/2305.07185

Megabyte为什么比Transformer强,就得先看看Transformer的不足之处在哪。

Transformer的不足

迄今为止几类高性能的生成式AI模型,如OpenAI的GPT-4、Google的Bard,都是基于Transformer架构的模型。

但Meta的研究团队认为,流行的Transformer架构可能正达到其阈值,其中主要理由是Transformer设计中固有的两个重要缺陷:

- 随着输入和输出字节长度的增加,自注意力的成本也迅速增加,如输入的音乐、图像或视频文件通常包含数兆字节,然而大型解码器 (LLM)通常只使用几千个上下文标记

- 前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词,但在每个位置的基础上难以实现可扩展性,这些网络独立地对字符组或位置进行操作,从而导致大量的计算开销

Megabyte强在哪

相比Transformer,Megabyte模型展示了一种独特的不同架构,将输入和输出序列划分为patch而不是单个token。

如下图,在每个patch中,本地AI模型生成结果,而全局模型管理和协调所有patch的最终输出。

首先,字节序列被分割成固定大小的patch,大致类似于token,这个模型由三部分组成:

(1) patch嵌入器:通过无损地连接每个字节的嵌入来简单地编码patch

(2) 一个全局模型:一个输入和输出patch表示的大型自回归变换器

(3) 一个本地模型:一个预测patch中字节的小型自回归模型

研究人员观察到,对于多数任务而言字节预测都相对容易(如完成给定前几个字符的单词),这意味着每个字节的大型网络是不必要的,并且可以使用更小的模型进行内部预测。

这种方法解决了当今AI模型中普遍存在的可扩展性挑战,Megabyte 模型的patch系统允许单个前馈网络在包含多个token的patch上运行,从而有效解决了自注意力缩放问题。

其中,Megabyte架构对长序列建模的Transformer进行了三项主要改进:

- 二次自注意力(Sub-quadratic self-attention)

大多数关于长序列模型的工作都集中在减轻自注意力的二次成本上,而Megabyte将长序列分解为两个较短的序列,即使对于长序列也仍然易于处理。

- patch前馈层(Per-patch feedforward layers)

在GPT-3大小的模型中,超过98%的FLOPS用于计算位置前馈层,Megabyte每个patch使用大型前馈层,以相同的成本实现更大、性能更强的模型。在patch大小为P的情况下,基线转换器将使用具有m个参数的相同前馈层P次,兆字节可以以相同的成本使用具有mP个参数的层一次。

- 解码中的并行性(Parallelism in Decoding)

Transformers必须在生成期间串行执行所有计算,因为每个时间步的输入是前一个时间步的输出,通过并行生成patch的表示,Megabyte允许在生成过程中实现更大的并行性。

例如,具有1.5B参数的Megabyte模型生成序列的速度比标准的350MTransformer快40%,同时在使用相同的计算量进行训练时还能改善困惑度。

Megabyte远远优于其他模型,并提供与在子词上训练的 sota 模型竞争的结果

相比之下,OpenAI 的GPT-4有32,000个token的限制,而Anthropic的Claude有100,000个token的限制。

此外,在运算效率方面,在固定模型大小和序列长度范围内,Megabyte比同等大小的Transformers和Linear Transformers使用更少的token,允许以相同的计算成本使用更大的模型。

总之,这些改进使我们能够在相同的计算预算下训练更大、性能更好的模型,扩展到非常长的序列,并提高部署期间的生成速度。

未来将会如何

随着AI军备竞赛进行地如火如荼,模型性能越来越强,参数也越来越高。

虽然GPT-3.5在175B个参数上进行了训练,但有人猜测功能更强大的GPT-4在1万亿个参数上进行了训练。

OpenAI的CEO Sam Altman最近也建议转变战略,他表示公司正在考虑舍弃对庞大模型的训练,而专注于其他性能的优化。

他将AI模型的未来等同于iPhone芯片,而大多数消费者对原始技术规格一无所知。

Meta的研究人员相信他们的创新架构来得正是时候,但也承认还有其他优化途径。

例如采用修补技术的更高效的编码器模型、将序列分解为更小块的解码模型以及将序列预处理为压缩token等,并且可以扩展现有Transformer架构的能力以构建新一代模型。

前特斯拉AI总监Andrej Karpathy也在这篇论文中发表了看法,他在推特上写道:

这是非常有希望的,每个人都应该希望我们能在大模型中扔掉标记化,也不需要那些过长字节的序列。

参考资料:

https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

关键词:

精彩阅读

比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤 当前快看

资讯

比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤,Transformer最近几年已然成为大模型的标

DTC品牌开线下店,走得通吗?

资讯

DTC品牌开线下店,走得通吗?,尽管实体店成本高昂,但在盈利方面,它比纯DTC模式更可靠。

全球新资讯:融资丨蔚赫信息完成近亿元融资

资讯

融资丨蔚赫信息完成近亿元融资,本轮融资将用于其在HiL(Hardware-in-the-Loop,硬件在环测试系统)领域的发展

即时:聚焦人效,薪人薪事发布HR SaaS产品,让业务复苏快人一步

资讯

聚焦人效,薪人薪事发布HRSaaS产品,让业务复苏快人一步,“以数据为底座,以赋能业务为目标”

头条:稚晖君刚拿了百度投资,估值被曝已超独角兽

资讯

稚晖君刚拿了百度投资,估值被曝已超独角兽,瞄准AI+机器人深度融合

靠“山寨机”起家,创始人出局,这家公司却走出大批创业者

资讯

靠“山寨机”起家,创始人出局,这家公司却走出大批创业者,活跃在芯片创业的几乎每个领域。

环球热资讯!魏家凉皮等商家苦美团久矣,抖音、快手杀入欲当救世主?

资讯

魏家凉皮等商家苦美团久矣,抖音、快手杀入欲当救世主?,抖快凶猛,美团坚守

小米,越过山丘

资讯

小米,越过山丘,关键时刻,小米做对了什么?

环球热讯:取TikTok之精华,Instagram创始人们的新赌注

资讯

取TikTok之精华,Instagram创始人们的新赌注,用新闻打造下一个爆款,AI驱动的美版头条能复刻社交奇迹吗?

融资丨「银基科技」完成2亿元B+轮融资 当前动态

资讯

融资丨「银基科技」完成2亿元B+轮融资,本轮融资将投入新一代汽车智能连接系统的研发。

财富

比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤 当前快看

资讯

比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤,Transformer最近几年已然成为大模型的标

DTC品牌开线下店,走得通吗?

资讯

DTC品牌开线下店,走得通吗?,尽管实体店成本高昂,但在盈利方面,它比纯DTC模式更可靠。

全球新资讯:融资丨蔚赫信息完成近亿元融资

资讯

融资丨蔚赫信息完成近亿元融资,本轮融资将用于其在HiL(Hardware-in-the-Loop,硬件在环测试系统)领域的发展

即时:聚焦人效,薪人薪事发布HR SaaS产品,让业务复苏快人一步

资讯

聚焦人效,薪人薪事发布HRSaaS产品,让业务复苏快人一步,“以数据为底座,以赋能业务为目标”

头条:稚晖君刚拿了百度投资,估值被曝已超独角兽

资讯

稚晖君刚拿了百度投资,估值被曝已超独角兽,瞄准AI+机器人深度融合

靠“山寨机”起家,创始人出局,这家公司却走出大批创业者

资讯

靠“山寨机”起家,创始人出局,这家公司却走出大批创业者,活跃在芯片创业的几乎每个领域。

环球热资讯!魏家凉皮等商家苦美团久矣,抖音、快手杀入欲当救世主?

资讯

魏家凉皮等商家苦美团久矣,抖音、快手杀入欲当救世主?,抖快凶猛,美团坚守

小米,越过山丘

资讯

小米,越过山丘,关键时刻,小米做对了什么?

环球热讯:取TikTok之精华,Instagram创始人们的新赌注

资讯

取TikTok之精华,Instagram创始人们的新赌注,用新闻打造下一个爆款,AI驱动的美版头条能复刻社交奇迹吗?

融资丨「银基科技」完成2亿元B+轮融资 当前动态

资讯

融资丨「银基科技」完成2亿元B+轮融资,本轮融资将投入新一代汽车智能连接系统的研发。

热门看点:​永洪科技出席科博会:领先源于洞察

企业是创新的主体,是推动创新创造的生力军。

GPT 应该存在吗?

GPT是否应该存在呢?ScottAaronson认为在掌握更多信息之前,我们应该按兵不动。

苹果“我的照片流”服务将于7月26日关闭

苹果“我的照片流”服务将于7月26日关闭。

IoT Analytics:预计2023全球物联网连接数同比增长16% 达到160亿-全球热议

全球物联网连接主要由三个关键技术主导:即Wi-Fi、蓝牙和蜂窝物联网。

腾讯会议「上新」,为了2亿听障朋友

对于使用助听器的听障朋友来说,并不是买一个助听器戴上就万事大吉了。

微信收藏功能内存空间多大(微信收藏功能)

来为大家解答以上问题,微信收藏功能内存空间多大,微信收藏功能很多人还不知道,现在让我们一起来看看吧!

掘地三万尺!我国首个万米深地科探井开钻-天天实时

新华社乌鲁木齐5月30日电(记者李响、顾煜)30日11时46分,随着一枚巨型钻头刺入沙漠,我国首个万米深地科

老婆的男主_老婆的男人们_速看

1、发至百度云可以吗?已发至唯恋罂。本文就为大家分享到这里,希望小伙伴们会喜欢。

浴火重生!字母哥联手布伦森泡椒组成新三叉戟,尼克斯重建完成|焦点热议

浴火重生!字母哥联手布伦森泡椒组成新三叉戟,尼克斯重建完成,布伦森,三叉戟,雄鹿队,快船队,热火队,阿德托

中国女足对巴西女足现场直播(直播:秘鲁VS巴西)|焦点日报

每日小编都会为大家带来一些知识类的文章,那么为大家带来的是直播:秘鲁VS巴西方面的消息知识,那么如果各

全球速递!做科研不功利很难吗?你的科研信仰是什么?

据我了解,想不功利地做科研还是很难的。因为科研是一份工作,科研工作者面临考核压力,需要根据考核压力去