GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才 环球讯息

2023-05-30 12:16:49   来源:商业新知网

西风 发自 凹非寺 量子位 | 公众号 QbitAI

继Windows Copilot发布后,微软Build大会热度又被 一场演讲 引爆。


【资料图】

前特斯拉AI总监Andrej Karpathy在演讲中认为 思维树(tree of thoughts) 与AlphaGo的 蒙特卡洛树搜索(MCTS) 有异曲同工之妙!

网友高呼:这是关于如何使用大语言模型和GPT-4模型的最详尽有趣的指南!

此外Karpathy透露,由于训练和数据的扩展,LLAMA 65B“明显比GPT-3 175B更强大”,并介绍了大模型匿名竞技场ChatBot Arena:

Claude得分介于ChatGPT 3.5和ChatGPT 4之间。

网友表示,Karpathy的演讲一向很棒,而这次的内容也一如既往没有令大家失望。

随着演讲而爆火的,还有推特网友根据演讲整理的一份笔记,足足有31条,目前转赞量已超过3000+:

所以,这段备受关注的演讲,具体提到了哪些内容呢?

如何训练GPT助手?

Karpathy这次的演讲主要分为两个部分。

第一部分 ,他讲了如何训练一个“GPT助手”。

Karpathy主要讲述了AI助手的四个训练阶段: 预训练(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。

每一个阶段都需要一个数据集。

在预训练阶段,需要动用大量的计算资源,收集大量的数据集。在大量无监督的数据集上训练出一个基础模型。

Karpathy用了更多例子作补充:

接下来进入微调阶段。

使用较小的有监督数据集,通过监督学习对这个基础模型进行微调,就能创建一个能够回答问题的 助手模型 。

他还展示了一些模型的进化过程,相信很多人之前已经看过上面这张“进化树”的图了。

Karpathy认为目前最好的开源模型是Meta的LLaMA系列(因为OpenAI没有开源任何关于GPT-4的内容)。

在这里需要明确指出的是, 基础模型不是助手模型 。

虽然基础模型可以回答问题,但它所给出的回答并不可靠,可用于回答问题的是助手模型。在基础模型上进行训练的助手模型,通过监督微调,在生成回复和理解文本结构方面的表现将优于基础模型。

在训练语言模型时,强化学习是另一个关键的过程。

通过用人工标记的高质量的数据进行训练,可以使用奖励建模来创建一个损失函数,以改善其性能。然后,通过增加正向的标记,并降低负面标记的概率,来进行强化训练。

而在具有创造性的任务中,利用人类的判断力对于改进AI模型至关重要,加入人类的反馈可以更有效地训练模型。

经过人类反馈的强化学习后,就可以得到一个RLHF模型了。

模型训练好了,接下来就是如何有效利用这些模型解决问题了。

如何更好地使用模型?

在 第二部分 ,Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。

Karpathy又给出了具体示例来说明:

当我们在写文章时候,我们会进行很多的心理活动,需要考虑自己的表述是否正确。而对于GPT来说,这只是一个序列标记(a sequence of tokens)。

而 提示(prompt) 可以弥补这种认知差异。

Karpathy进一步解释了 思维链 提示的工作方式。

对于推理问题,要想让自然语言处理中Transformer的表现更好,需要让它一步一步地处理信息,而不能直接抛给它一个非常复杂的问题。

如果你给它几个例子,它会模仿这个例子的模版,最终生成的结果会更好。

模型只能按照它的序列来回答问题,如果它生成的内容是错误的,你可以进行提示,让它重新生成。

如果你不要求它检查,它自己是不会检查的。

这就涉及到了System1和System2的问题。

诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出,人的认知系统包含System1和System2两个子系统。System1主要靠直觉,而System2是逻辑分析系统。

通俗来说,System1是一个快速自动生成的过程,而System2是经过深思熟虑的部分。

这在最近一篇挺火的论文“Tree of thought”(思维树)中也有被提及。

深思熟虑指的是,不是简单的给出问题的答案,而更像是与Python胶水代码一起使用的prompt,将许多prompt串联在一起。模型必须要维护多个提示,还必须要执行一些树搜索算法,来找出要扩展的提示。

Karpathy认为这种思路与AlphaGo非常相似:

AlphaGo在下围棋时,需要考虑下一枚棋子下在哪里。最初它是靠模仿人类来学习的。

但除此之外,它还进行了蒙特卡洛树搜索,可以得到具有多种可能性的策略。它可以对多种可能的下法进行评估,仅保留那些较好的策略。我认为这在某种程度上相当于AlphaGo。

对此,Karpathy还提到了AutoGPT:

我认为目前它的效果还不是很好,我不建议大家进行实际应用。我只是认为,随着时间的推移,我们或许可以从它的发展思路中汲取灵感。

其次,还有一个小妙招是检索增强生成(retrieval agumented generation)和有效提示。

窗口上下文的内容就是transformers在运行时的记忆(working memory),如果你可以将与任务相关的信息加入到上下文中,那么它的表现就会非常好,因为它可以立即访问这些信息。

简而言之,就是可以为相关数据建立索引让模型可以高效访问。

如果Transformers也有可参考的主要文件,它的表现会更好。

最后,Karpathy简单讲了一下在大语言模型中的约束提示(Constraint prompting)和微调。 可以通过约束提示和微调来改进大语言模型。约束提示在大语言模型的输出中强制执行模板,而微调则调整模型的权重以提高性能。

我建议在低风险的应用中使用大语言模型,始终将它们与人工监督相结合,将它们看作是灵感和建议的来源,考虑copilots而不是让它们完全自主代理。

关于Andrej Karpathy

Andrej Karpathy博士毕业后的第一份工作,是在OpenAI研究计算机视觉。

后来OpenAI联合创始人之一的马斯克看上了Karpathy,把人挖到了特斯拉。但也因为这件事,马斯克和OpenAI彻底闹翻,最后还被踢出局。在特斯拉,Karpathy是Autopilot、FSD等项目的负责人。

今年二月份,在离开特斯拉7个月后,Karpathy再次加入了OpenAI。

最近他发推特表示,目前对开源大语言模型生态系统的发展饶有兴趣,有点像早期寒武纪爆发的迹象。

关键词:

精彩阅读

GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才 环球讯息

热点

继WindowsCopilot发布后,微软Build大会热度又被一场演讲引爆。

“搭子”社交流行,越来越多的年轻人开始在觅伊找搭子 焦点观察

热点

“搭子”没有褒贬之分,但是主动选择“搭子”的人,他们的心理动机,决定了这段短暂关系未来的意义。

解析 ChatGPT 背后的工作原理|当前视讯

热点

ChatGPT是OpenAI发布的最新语言模型,相较于前身GPT-3有显著提升。

天涯,假装还活着

热点

因为IDC欠费、服务器被停,曾经被誉为“中国互联网第一社区”的天涯社区,如今为了筹集300万元的重启资金而

全球首艘5G大型邮轮即将交付运营

热点

近日,我国首艘国产大型邮轮“爱达·魔都”号(AdoraMagicCity)船名正式向全球发布。

关于我对加密项目的理解

热点

加密生态的思维方式在我看来其核心和精髓一定是自下而上的推动项目---发动群众、激励群众。

环球精选!NVIDIA 发布面向各行各业的生成式 AI 平台

热点

通过这些平台,企业可以把握住这一历史性的生成式AI浪潮,以革新广告、制造、电信等行业。

天天报道:“重启天涯”,难!难!难!

热点

用户大量流失、公司常年亏损、投资失利等一系列危机,让天涯社区一步步从神坛跌落。

消息称三星已经启动XR芯片开发计划;苹果远程会议系统可通过XR头显参与线上会议 今日播报

热点

本作是一款生存类FPS游戏,收到《逃离塔科夫》和《DayZ》的启发,包含PvP与PvE模式。

【民生计算机】算力业绩落地宣告AI行情新阶段-微动态

热点

大模型AI快速发展带动数据中心业务创历史新高。

财富

环球热资讯!魏家凉皮等商家苦美团久矣,抖音、快手杀入欲当救世主?

资讯

魏家凉皮等商家苦美团久矣,抖音、快手杀入欲当救世主?,抖快凶猛,美团坚守

小米,越过山丘

资讯

小米,越过山丘,关键时刻,小米做对了什么?

环球热讯:取TikTok之精华,Instagram创始人们的新赌注

资讯

取TikTok之精华,Instagram创始人们的新赌注,用新闻打造下一个爆款,AI驱动的美版头条能复刻社交奇迹吗?

融资丨「银基科技」完成2亿元B+轮融资 当前动态

资讯

融资丨「银基科技」完成2亿元B+轮融资,本轮融资将投入新一代汽车智能连接系统的研发。

天天看热讯:融资丨云潼科技完成数亿元A轮融资

资讯

融资丨云潼科技完成数亿元A轮融资,本轮融资将用于公司新产线建设和后续研发,完善公司在车规领域功率器件领

Meta头显设备首次亮相,或成苹果最大竞争对手

资讯

Meta头显设备首次亮相,或成苹果最大竞争对手,有了头显,Apple将立即占领高端市场,但Meta仍将在更便宜的市

减脂、增肌与AIGC,小米的高端化答卷|热点评

资讯

减脂、增肌与AIGC,小米的高端化答卷,一面求稳,一面求变

24年老网站直播“续命”,8小时卖了4万块

资讯

24年老网站直播“续命”,8小时卖了4万块,进入“ICU”后,老天涯人开启一场7天7夜的急救。

世界观天下!淄博烧烤大降温?当地人直言:真别来了 ,扰民!

资讯

淄博烧烤大降温?当地人直言:真别来了,扰民!,一则淄博烧烤店空荡荡的视频,引发新一轮热议,淄博烧烤真

即时焦点:李佳琦“接班人”7天速成记

资讯

李佳琦“接班人”7天速成记,养成系,速成还是速朽?

“搭子”社交流行,越来越多的年轻人开始在觅伊找搭子 焦点观察

“搭子”没有褒贬之分,但是主动选择“搭子”的人,他们的心理动机,决定了这段短暂关系未来的意义。

解析 ChatGPT 背后的工作原理|当前视讯

ChatGPT是OpenAI发布的最新语言模型,相较于前身GPT-3有显著提升。

天涯,假装还活着

因为IDC欠费、服务器被停,曾经被誉为“中国互联网第一社区”的天涯社区,如今为了筹集300万元的重启资金而

全球首艘5G大型邮轮即将交付运营

近日,我国首艘国产大型邮轮“爱达·魔都”号(AdoraMagicCity)船名正式向全球发布。

关于我对加密项目的理解

加密生态的思维方式在我看来其核心和精髓一定是自下而上的推动项目---发动群众、激励群众。

世界今日报丨降价不是衡量车险改革唯一标准

降价不是衡量车险改革唯一标准---近日,有报道称按照监管部门要求,财产保险公司定价自主权进一步扩大,商

世界快资讯丨油价年内第四涨要来,加满一箱或多花3.5元

中新经纬5月30日消息,今日(30日)24时,2023年新一轮国内成品油调价窗口将开启。机构普遍预测,本轮国内

桃花茶喝了会拉肚子吗 桃花茶喝多了的危害_世界快讯

桃花茶喝多了会引起肚泻和腹胀等消化不良症状,尤其是敏感肠道的人。此外,长期过量饮用桃花茶还可能导致便

根据近期阴雨天气情况,市委农办提出—— 全力以赴“龙口夺粮” 确保小麦颗粒归仓_新视野

运城日报讯(记者付炎)当前,我市小麦普遍处于灌浆成熟期。连日来,全市出现持续阴雨天气,温度偏低,对小

世界速讯:世界女排联赛今日开打 中国女排期待开门红

中新网北京5月30日电2023年世界女排联赛将于北京时间5月30日拉开大幕。这是今年第一项国际性排球赛事,也是

环球快看:在港股探底中 哪些个股处在价值洼地?(附筛选名单)

美联储加息预期升温,债务上限谈判初步协议达成,但警报还未解除,国内数据显示经济修复动能不足。不确定性