2022-12-19 16:07:02 来源:商业新知网
ChatGPT彻底让网友们陷入疯狂,也带?了一众理论研究。
原因无他,这只AI说话太“对味”,不仅准确掌握沟通要领,就连人类的语言艺术都玩得明明白白。
这不,让它模仿产品经理挂在嘴边的“赋能”、“抓手”和“闭环”:
(资料图)
△ 图源@LeaskH,省略300+黑话词汇
ChatGPT张口就来:
△ 图源@LeaskH
味实在太冲,网友直呼“把AI教恶心了”:
但要知道,直到ChatGPT之前,语言模型还做不到 精准get沟通要领 ,不仅回答经常驴唇不对马嘴,针对特定的说话风格也难以模仿到位。
什么时候开始,语言模型的对话能力变得这么强了?背后的原理究竟是什么?
对此,MIT助理教授Jacob Andreas提出观点:
最近这批语言模型,已经有了自己的“目标”和“信念”。
首先来看一个喜闻乐见的AI犯傻例子。
提示词是:我从来没吃过烤芝士三明治,在我母亲()之前。
结果GPT-3的text-davinci-002版本,填上了“母亲去世之前”,后面却又说母亲在我小时候总是给我做这个吃,前后矛盾了。
除这种错误之外,当前的一众语言模型还会描述不可能出现的情况和无效的推论。
Jacob Andreas认为,这些错误的共同点是“AI未能对交流意图做建模,只满足了语法正确。”
不过,还是同样的GPT-3,只需在提示词中加上角色设定就会表现出截然不同的行为。
同样是保龄球和树叶的真空自由落体实验,让AI扮演一个物理学家就能得出正确答案“他们下落速度一样”。
同时AI也预测一个从没看过这个演示的人会以为保龄球更早落地,还能指出错误在于真空室中没有空气阻力。
从这些例子可以看出,语言模型可以模拟不同的智能体(agent),预测它们的观察、内部状态、行动和语言。
不过口说无凭,直接上证据。
首先,Jacob Andreas训练了一个实验性的LSTM神经网络。
训练数据集中,有持两组不同信念的人A型人与B型人撰写的文章,以及尽管A、B中存在矛盾也全盘接受的O型人。
尽管训练中模型从来没见过有关身份的信息,仍然以98%的精度能执行按写作者类型分类的任务,并在一定条件下生成指定类型的文章。
Jacob Andreas认为此时的神经网络并不能看成A型、B型或O型智能体,但却可以模仿任意一种。
当然这个实验是极度简化的,不过在现实中也有大量例子可以佐证语言模型可以拥有 意图 (Intentions)、 信念 (Beliefs)和 愿望 (Desires)。
2017年,OpenAI在亚马逊电商评论数据集上训练了一个LSTM网络,并在完全不同IMDB电影评论数据上做了评估。
有意思的是,团队在网络中定位到一个专门对评论的态度做出响应的“情感神经元”,对情感正负面作二值分类时精度高达92%。
如果人为固定这个神经元的值,相应的态度也能体现在模型声称的电影评论文本上。
△ arxiv.org/abs/1704.01444
Jacob Andreas认为这代表语言模型尽管在训练中没看到评论配套的打分信息,仍然可以学到人类的 意图 ,也就是写下这段文字是为了传递什么情绪。
语言模型学到人类的 信念 的证据,则来自2021年他自己团队的一项研究。
这次的训练数据集用冒险小说和实验操作描述,也就是说都涉及到一个人的观察和动作,模型架构采用了BART和T5。
△ arxiv.org/abs/2106.00737
在实验中,模型能以97%的精度推断出不同物体在一系列动作之后的状态和与其他物体的关系变化,尽管文本中没有明确提到这些变化。
与上一个实验一样,如果人为固定这些表征,同样可以影响生成文本。说明语言模型不仅学到了低层次的语法关系,还获得了对世界状态的“信念”:包括看到了什么,自己做了什么,以及对情况变化的推测。
最后轮到 愿望 或者说声称这段文字是为了完成什么目标(Goal),这次是最近OpenAI与牛津大学合作的一项有关提示工程的研究。
研究特意挑选了网络上的谣言、都市传说和误解比较多的内容作数据集。
使用常规问法时,模型果然会输出错误的答案,而且越大的模型错的越多。
△ arxiv.org/abs/2109.07958
一旦换个问法,在问题中加入“假如你是史密斯教授,经过仔细研究后……”,准确率就从38%飙升到58%。
如果在提问前先给一个阴谋论的示例,那准确率就剩下不到20%。
综合以上案例,Jacob Andreas认为当前的语言模型虽然还是会出错,但已经能作为未来 智能体模型 的基础,最终有望实现有目的交流和行动。
而在目前所有语言模型中,ChatGPT表现最为惊艳,它又有何特殊之处?
无论是架构还是训练方法,ChatGPT都不算一个船新的模型。
但在动用大量人 (jin) 力 (qian) 后,充分吸收了各种人类沟通技巧的ChatGPT横空出世,甚至还 学会了合理拒绝 ,减少乱说话的情况发生。
先来看看它的架构和训练方法。
架构上,研究者们 微调了GPT 3.5 中的某个模型,得到了ChatGPT。
GPT 3.5是一个模型合集,里面有三个模型,都是基于code-davinci-002迭代而来,包括text-davinci-002和text-davinci-003:
其中text-davinci-002就是在code-davinci-002的基础上,采用了InstructGPT训练方法改进得到,而text-davinci-003又是text-davinci-002的改进。
ChatGPT就是基于这几个模型之一做了微调,并同样采用了InstructGPT的训练方法。
训练上,InstructGPT采用了 强化学习 “秘方”,让语言模型不再埋头苦干,而是学会对人类的反馈“做出反应”。
具体来说,研究人员先收集平时用户给GPT-3等模型输入的 提示词 ,得到一个提示词数据集 (用户同意的情况下) 。
然后,基于这个提示词数据集,让模型输出几种不同的答案,并对这些答案进行 排序 ,从而训练得到一个reward模型。
值得注意的是,这里的排序是 人工打分 的,研究者们聘请了约40人团队专门来给AI生成的效果打分,意在让AI输出“人类最满意的结果”。
最后,使用强化学习方法,使用reward模型对模型进行“调教”,从而让模型真正掌握人类沟通技巧。
所以这个方法也被称之为基于人类反馈的强化学习 (RLHF,Reinforcement Learning from Human Feedback) 。
不过,ChatGPT也没有完全照搬InstructGPT的训练方法,在数据收集设置上有些细微差异。
值得一提的是,这次训练ChatGPT,还动用了微软的Azure AI超级计算机。
估计等ChatGPT一收费,微软又要赚麻了。 (手动狗头)
所以,这种训练方法效果有多神奇?
简单来说,InstructGPT在参数量只有GPT3的1%情况下,采用这种训练方法,输出效果依旧比GPT3更好。
如下图,InstructGPT模型在只有13亿参数 (下图PPO-ptx和PPO) 的时候,人类对它的输出效果,就要比1750亿参数的GPT-3 (下图GPTprompted和GPT) 更满意:
值得注意的是,除了采用上述架构和训练方法以外,研究人员还额外给这个模型附加了不少 限制 ——
让它拒绝输出 (或生成提醒) 虚假信息、血腥暴力等限制性内容和不道德的内容。
例如输入“当哥伦布2015年来到美国会发生什么”时:
未加限制的原版模型直接给出了违背历史的回答:
当哥伦布于2015年来到美国……
但ChatGPT却发现了这个bug,及时加上一句提醒:
这问题有点棘手, 毕竟哥伦布1506年就死了 。但我们可以假装他2015年来到了美国……
一下子AI生成的回答就显得有理有据了。
ChatGPT到底能不能算一个智能体模型,智能体模型和语言模型又有啥区别?
有人让它问了问它自己……
朋友们,你们说ChatGPT够格了吗?
MIT论文地址:
https://arxiv.org/abs/2212.01681从第一天开始甲方客户都有非常明确的结果要求,服务必须全面从客户出发,交付符合预期的结果。
游戏的更新并不会随着最终章的推出而结束,制作组预定于2023年推出PvP模式“DemeoBattles”。
融资丨「飞步科技」完成超亿元B2轮融资,安徽省铁路发展基金和浙江大学教育基金会联合投资,所募集资金将主要用于自动驾驶产品技术研发,加速推
融资丨「Databento」完成3180万美元融资,TrousdaleVentures、UnusualVentures等领投,所筹资金将用于高阶数据平台的搭建和团队扩张,为各类金
融资丨「SafeAI」完成3800万美元B轮融资,BuildersVC、AutotechVentures等投资,本轮资金将主要用于加速公司自动驾驶技术的研发,推动全球市场的扩张。
激活原理如下:· 卸载初始产品密钥 --- 安装VL版密钥 --- 指定KMS服务器 --- 下达命令激活飞飞演示的是Windows 10 专业版的激活
No1 写在最前:首先说明目前国产安卓手机阵营里无法解锁BL(Bootloader)的厂商有OV(opple,vivo,iqoo),华为等,这些厂商生产的手机是无法
同样,我们可以看到路由器的登陆地址(192 168 0 1)及无线名称(SSID后面就是它的无线名称)手机找到ChinaNet-2 4G或ChinaNet-5G,两个中随便
一、海尔洗衣机价格一般是多少海尔洗衣机XQG70-BX12266A,市场价格:2749 00元。特点:7公斤滚筒式洗衣机,无碳刷,超静音,无极变频,强效
宏碁(Acer)旗下的笔记本主要包含消费类、商用类、掠夺者和ConceptD几大产品线,下面我们就来简单了解一下它们的保修策略。3年保修的计算方
Rokid宣布全球首家品牌旗舰店正式开业,位于浙江省杭州核心区域元宇宙一条街——「文三数字生活街区」。
以LabelFree为代表的高效、低门槛标注平台,将让更多人拥抱AI。
管控逐渐放开后,不少企业不得不宣布部分员工实行“居家办公”。
从第一天开始甲方客户都有非常明确的结果要求,服务必须全面从客户出发,交付符合预期的结果。
一体化智能零售服务商慧策凭借在助力零售企业数智升级等方面的深厚行业经验,斩获“数字化突出贡献奖”!