世界要闻:OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度

2023-06-02 10:06:15   来源:商业新知网

现在,大语言模型迎来了「无所不能」的时代,其中在执行复杂多步推理方面的能力也有了很大提高。不过,即使是最先进的大模型也会产生逻辑错误,通常称为幻觉。因此,减轻幻觉是构建对齐 AGI 的关键一步。


(资料图片仅供参考)

为了训练更可靠的模型,目前可以选择两种不同的方法来训练奖励模型,一种是结果监督,另一种是过程监督。结果监督奖励模型(ORMs)仅使用模型思维链的最终结果来训练,而过程监督奖励模型(PRMs)则接受思维链中每个步骤的奖励。

考虑到训练可靠模型的重要性以及人工反馈的高成本,仔细比较结果监督与过程监督非常重要。虽然最近的工作已经开展了这种比较,但仍然存在很多问题。

在本文中,OpenAI 进行了调研,结果发现在训练模型解决 MATH 数据集的问题时,过程监督显著优于结果监督。OpenAI 使用自己的 PRM 模型解决了 MATH 测试集中代表性子集的 78% 的问题。

此外为了支持相关研究,OpenAI 还开源了 PRM800K,它是一个包含 800K 个步级人类反馈标签的完整数据集,用于训练它们的最佳奖励模型。

如下为一个真正(True positive)的问答示例。该问题以及 OpenAI 列举的其他问题示例均来自 GPT-4。这个具有挑战性的三角学问题需要并不明显地连续应用多个恒等式。大多数解决方案尝试都失败了,因为很难知道哪些恒等式实际上有用。尽管 GPT-4 通常无法解决这个问题(正确率仅为 0.1% ),但本文的奖励模型正确地识别出了这个解决方案是有效的。

再看一个假正(False positive)的问答示例。在第四步中,GPT-4 错误地声称该序列每 12 个项重复一次,而实际上是每 10 个项重复一次。这种计数错误偶尔会愚弄奖励模型。

论文作者之一、OpenAI Alignment 团队负责人 Jan Leike 表示,「使用 LLM 做数学题的真正有趣结果是:监督每一步比只检查答案更有效。」

英伟达 AI 科学家 Jim Fan 认为,「这篇论文的观点很简单:对于挑战性的逐步问题,要在每一步给予奖励,而不要在最后给予单个奖励。从根本上来说,密集奖励信号>稀疏。」

我们接下来细看 OpenAI 这篇论文的方法和结果。

论文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

数据集地址:https://github.com/openai/prm800k

方法概览

该研究按照与 Uesato et al. (2022) 类似的方法对结果监督和过程监督进行了比较。值得注意的是这项研究无需人工即可提供结果监督,因为 MATH 数据集中的所有问题都有可自动检查的答案。相比之下,没有简单的方法来自动化过程监督。该研究依靠人类数据标记者来提供过程监督,具体来说是需要人工标记模型生成的解决方案中每个步骤的正确性。该研究在大规模和小规模两种情况下分别进行了实验。

范围

对于每种模型规模,该研究都使用一个固定模型来生成所有解决方案。这个模型被称为生成器,OpenAI 表示不会通过强化学习 (RL) 来改进生成器。

基础模型

所有大型模型均是基于 GPT-4 模型进行微调得来的。该研究还添加了一个额外的预训练步骤 —— 在含有约 1.5B 数学相关 token 的数据集 MathMix 上微调所有模型。与 Lewkowycz et al. (2022) 类似,OpenAI 的研究团队发现这种方法可以提高模型的数学推理能力。

生成器

为了更容易解析单个步骤,该研究训练生成器在生成解决方案时,步骤之间用换行符分隔。具体来说,该研究对 MATH 训练问题使用少样本生成解决方案,过滤出得到最终正确答案的解决方案,并在该数据集上对基础模型进行一个 epoch 的微调。

数据采集

为了收集过程监督数据,该研究向人类数据标记者展示了大规模生成器采样的数学问题的逐步解决方案。人类数据标记者的任务是为解决方案中的每个步骤分配正面、负面或中性标签,如下图 1 所示。

该研究只标记大型生成器生成的解决方案,以最大限度地发挥有限的人工数据资源的价值。该研究将收集到的按步骤标记的整个数据集称为 PRM800K。PRM800K 训练集包含 800K 步骤标签,涵盖 12K 问题的 75K 解决方案。为了最大限度地减少过拟合,PRM800K 训练集包含来自 MATH 的 4.5K 测试问题数据,并仅在剩余的 500 个 MATH 测试问题上评估模型。

结果监督奖励模型 (ORM)

该研究按照与 Cobbe et al. (2021) 类似的方法训练 ORM,并从生成器中为每个问题采样固定数量的解决方案,然后训练 ORM 来预测每个解决方案的正确与否。实践中,自动检查最终答案来确定正确性是一种常用的方法,但原则上由人工标记者来提供标签。在测试时,该研究使用 ORM 在最终 token 处的预测作为每个解决方案的总分。

过程监督奖励模型(PRM)

PRM 用来预测每个步骤(step)中最后一个 token 之后的步骤的正确性。这种预测采用单个 token 形式,并且 OpenAI 在训练过程中最大化这些目标 token 的对数似然。因此,PRM 可以在标准的语言模型 pipeline 中进行训练,无需任何特殊的适应措施。

图 2 为同一个问题的 2 种解决方案,左边的答案是正确的,右边的答案是错误的。绿色背景表示 PRM 得分高,红色背景表示 PRM 得分低。PRM 可以正确识别错误解决方案中的错误。

在进行过程监督时,OpenAI 有意选择仅对第一个错误步骤进行监督,从而使得结果监督和过程监督之间的比较更加直接。对于正确的解决方案,两种方法提供的信息相同,因为每一步都是正确的解题方法。对于错误的解决方案,两种方法都能揭示至少存在一个错误,并且过程监督还揭示了该错误的确切位置。

大规模监督

OpenAI 使用全流程监督数据集 PRM800K 来训练 PRM,为了使 ORM 基准更加强大,OpenAI 还为每个问题进行了 100 个样本的训练,这些样本均来自生成器,由此 ORM 训练集与 PRM800K 没有重叠样本。

下图为结果监督和过程监督奖励模型以及投票方案的比较,结果表明在搜索模型生成的解决方案时,PRM 比 ORM 和多数投票更有效。

小规模综合监督

为了更好的比较结果监督和过程监督,首先需要注意的是 ORM 和 PRM 的训练集不具有直接可比性,PRM 训练集是使用主动学习构建的,偏向于答案错误的解决方案,还比 ORM 训练集少一个数量级。

过程监督 VS 结果监督

首先 OpenAI 从小规模生成器中为每个问题采样 1 到 200 个解决方案。对于每个数据集,OpenAI 提供三种形式的监督:来自 PRM_large 的过程监督,来自 PRM_large 的结果监督以及来自最终答案检查的结果监督。

图 4a 表明,过程监督明显优于其他两种形式的结果监督;图 4b 表明,使用 PRM_large 进行结果监督明显比最终答案检查的结果监督更有效。

OOD 泛化

为了衡量模型在分布外(OOD)泛化的性能,OpenAI 对大规模 ORM 和 PRM 在一个由 224 个 STEM 问题组成的 held-out(留出法)上进行评估,这些问题来自最新的 AP 物理(美国大学先修课程简称 AP)、AP 微积分、AP 化学、AMC10(理解为数学竞赛)和 AMC12 考试,模型没有见过这些问题。表格 1 中报告了 ORM、PRM 和多数投票的前 100 个的最佳表现。表明,PRM 的性能优于 ORM 和多数投票,同时意味着 PRM 在新的测试问题上性能仍然保持不变。

关键词:

精彩阅读

世界要闻:OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度

热点

现在,大语言模型迎来了「无所不能」的时代,其中在执行复杂多步推理方面的能力也有了很大提高。

行业降价潮愈演愈烈,金山云为何陷入困境?降价的求生之路_全球即时看

热点

在头部厂商中,只有少数厂商已经实现了盈利,而金山云则是其中的一家。

2022年App Store营业额突破1.1万亿美元-新视野

热点

2022年AppStore营业额突破1 1万亿美元。

李彦宏为何要召唤AI独角兽? 当前关注

热点

李彦宏下“英雄贴”中国需要AI独角兽。

当AI“插手”童年,人人都有“哆啦A梦”的美梦要成真了?

热点

儿童节还没到,各大连锁餐厅的六一限定套餐早已库存告急。

天天时讯:智库智能获数千万元 A 轮融资,聚焦托盘仓储机器人赛道

热点

近日,江苏智库智能科技有限公司(智库智能)已完成数千万元A轮融资。

百度要给这些人投钱,一出手就是10亿 天天新动态

热点

基于大模型开发应用,可能会诞生一批未来的新巨头,百度希望现在找到并帮助这些有活力、有创意的初创企业。

马斯克要推出自己的ChatGPT?正在建立自己的 OpenAI 竞争对手公司

热点

2015年,马斯克与他人共同创建了OpenAI,但于2018年离开了董事会。

焦点要闻:华为天才少年创业项目获百度投资 正自行开发机器人

热点

华为天才少年计划成员稚晖君宣布从华为离职,将开启一段新事业。

北京:支持研发多模态融合感知技术,探索自动驾驶新技术路径

热点

近日,北京市政府办公厅印发了《北京市促进通用人工智能创新发展的若干措施》。

财富

中国科大研制出生物合成的纤维素基绝缘纳米纸

资讯

中国科大研制出生物合成的纤维素基绝缘纳米纸,近日,中国科学院院士、中国科学技术大学教授俞书宏团队报道

苹果新专利获批 为iPhone、iPad设计屏下Face ID_环球观焦点

资讯

苹果新专利获批为iPhone、iPad设计屏下FaceID,据美国商标和专利局(USPTO)公示的清单,苹果近日获得了编号

全球新消息丨我国首个量子信息技术国家标准正式发布

资讯

我国首个量子信息技术国家标准正式发布,6月2日消息,近日,我国首个量子信息技术领域国家标准《量子计算术

消息称苹果正招募新的软件工程师_天天精选

资讯

消息称苹果正招募新的软件工程师,6月2日,科技记者马克·古尔曼表示,苹果正招募新的软件工程师,要求熟悉

ChatGPT唤醒AI游戏?

资讯

ChatGPT唤醒AI游戏?,继各种AI绘画、AI合成照片、视频之后,AI在游戏领域开启了新一场狂欢。

英伟达CEO黄仁勋今日将与鸿海集团董事长刘扬伟会面

资讯

英伟达CEO黄仁勋今日将与鸿海集团董事长刘扬伟会面,台湾《经济日报》6月2日消息,英伟达(Nvidia)首席执行

小鹏“掉队”,它究竟做错了什么? 全球速看料

资讯

小鹏“掉队”,它究竟做错了什么?,销量下滑、亏损扩大、股价大跌,小鹏掉出第一梯队。

充电宝超级横评:兼容PD快充协议都很奢侈,难怪有充电宝刺客!|环球观察

资讯

充电宝超级横评:兼容PD快充协议都很奢侈,难怪有充电宝刺客!,小小充电宝也有大学问。

环球热讯:这届年轻人,爱上养“棉娃”

资讯

这届年轻人,爱上养“棉娃”,年轻人的“养娃”潮,吹来一个10亿风口。

六一儿童节票房破亿-全球时讯

资讯

六一儿童节票房破亿,截止2023年6月1日15时,6月1日儿童节单日票房突破1亿,《哆啦A梦:大雄与天空的理想乡

行业降价潮愈演愈烈,金山云为何陷入困境?降价的求生之路_全球即时看

在头部厂商中,只有少数厂商已经实现了盈利,而金山云则是其中的一家。

2022年App Store营业额突破1.1万亿美元-新视野

2022年AppStore营业额突破1 1万亿美元。

李彦宏为何要召唤AI独角兽? 当前关注

李彦宏下“英雄贴”中国需要AI独角兽。

当AI“插手”童年,人人都有“哆啦A梦”的美梦要成真了?

儿童节还没到,各大连锁餐厅的六一限定套餐早已库存告急。

天天时讯:智库智能获数千万元 A 轮融资,聚焦托盘仓储机器人赛道

近日,江苏智库智能科技有限公司(智库智能)已完成数千万元A轮融资。

迎接航天员回家 东风着陆场准备好了

神舟十五号搜救回收任务6月1日凌晨按照全系统、全状态、全流程,组织航天员搜救1∶1全系统综合演练。这是任

球阀型号规格对照表_球阀型号规格

1、一、规格为10毫米、15毫米、20毫米,型号如下图:  二、球阀的简单介绍:  球阀(ballvalve在海工和

世界热资讯!负筋示意图图片_负筋

1、设梁的净跨长度为L作基数计算,最上面一排负筋伸入到净跨度内的长度是L 3,上面第二排钢筋伸入到净跨内

魅族手机应该怎么退出Aicy 魅族手机退出Aicy方法

现在大家使用手机的频率越来越频繁,手机也为我们提供了许多的便利,也来说一下这个魅族手机应该怎么退出Ai

分水器的作用高中化学(分水器的作用)

分水器的作用高中化学,分水器的作用这个很多人还不知道,现在让我们一起来看看吧!1、分水器又可称为分集水

幼儿园教学方法创新_幼儿园教学方法_世界热头条

1、目前,我国中小学常用的教学方法从宏观上讲主要有:以语言形式获得间接经验的教学方法,以直观形式获得