【环球速看料】报道 | AI能证明数学数据库中82%的问题了,新SOTA已达成,还是基于Transformer

2023-02-16 10:19:17   来源:商业新知网

明敏 发自 凹非寺 量子位 | 公众号 QbitAI

不得不说,科学家们最近都在痴迷给AI补数学课了。

这不,脸书团队也来凑热闹,提出了一种新模型,能完全自动化论证定理,并显著优于SOTA。


【资料图】

要知道,随着数学定理愈加复杂,之后再仅凭人力来论证定理只会变得更加困难。

因此,用计算机 论证数学定理 已经成为一个研究焦点。

此前OpenAI也提出过专攻这一方向的模型GPT-f,它能论证Metamath中56%的问题。

而这次提出的最新方法,能将这一数字提升到 82.6% 。

与此同时,研究人员表示该方法使用的时间还更短,与GPT-f相比可以将计算消耗缩减到原本的十分之一。

难道说这一次AI大战数学,是要成功了?

还是Transformer

本文提出的方法为一种基于Transformer的在线训练程序。

大致可以分为三步:

第一、在数学证明库中预训练;

第二、在有监督数据集上微调策略模型;

第三、在线训练策略模型和判断模型。

具体来看是利用一种搜索算法,让模型在已有的数学证明库中学习,然后去推广证明更多的问题。

其中数学证明库包括3种,分别是Metamath、Lean和自研的一种证明环境。

这些证明库简单来说,就是把普通数学语言转换成近似于编程语言的形式。

Metamath的主库是set.mm,包含基于ZFC集合论的约38000个证明。

Lean更为人熟知的,是微软那个可以参加IMO赛事的AI算法。Lean库就是为了教会同名算法所有的本科数学知识,并让它学会证明这些定理。

这项研究的主要目标,是为了构建一个证明器,让它可以自动生成一系列合适的策略去论证问题。

为此,研究人员提出了一个基于MCTS的非平衡超图证明搜索算法。

MCTS译为蒙特卡洛树搜索,常用 于 解决博弈树问题,它因为AlphaGo所被人熟知。

它的运行过程,就是通过在搜索空间中随机抽样来找寻有希望的动作,然后根据这个动作来扩展搜索树。

本项研究采用的思路类似于此。

搜索证明过程从目标g开始,向下搜索方法,逐步发展成一个超图 (Hypergraph) 。

当出现一个分支下出现空集时,就意味着找到了一个最优证明。

最后,在反向传播过程中,记下超树的节点值和总操作次数。

在这个环节中,研究人员假设了一个策略模型和一个判断模型。

策略模型允许判断模型进行抽样,判断模型可以评估当前策略找到证明方法的能力。

整个搜索算法,就以如上两个模型作为参照。

而这两个模型都是Transformer模型,且权值共享。

接下来,就到了在线训练的阶段。

这个过程中,控制器会将语句发送给异步HTPS验证,并收集训练和证明数据。

然后验证器会将训练样本发送给分布式训练器,并定期同步其模型副本。

实验结果

在测试环节,研究人员将HTPS与GPT-f进行了比较。

后者是OpenAI此前提出的数学定理推理模型,同样基于Transformer。

结果表明,在线训练后的模型可以证明Metamath中82%的问题,远超GPT-f此前56.5%的记录。

在Lean库中,这一模型可以证明其中43%的定理,比SOTA提高了38%,以下是该模型证明出的IMO试题。

不过目前它还不是十全十美。

比如在如下这道题中,它解题用了比原题简便的办法,但这是不对的,研究人员表示这是因为注释中出现了错误。

One More Thing

用计算机论证数学问题, 四色定理 的证明便是最为人熟知的例子之一。

四色定理是近代数学三大难题之一,它提出“任何一张地图只用四种颜色就能使具有共同边界的国家,着上不同的颜色”。

由于这一定理的论证需要大量计算,在它被提出后100年内,都没有人能完全论证。

直到1976年,在美国伊利诺斯大学两台计算机上,经过1200小时、100亿次判断后,终于可以论证任何一张地图都只需要4种颜色来标记,由此也轰动了整个数学界。

加之随着数学问题愈加复杂,用人力来检验定理是否正确也变得更加困难。

近来,AI界也把目光逐步聚焦在数学问题上。

2020年,OpenAI推出数学定理推理模型GPT-f,可用于自动定理证明。

这一方法可完成测试集中56.5%的证明,超过当时SOTA模型MetaGen-IL30%以上。

同年,微软也发布了可以做出IMO试题的Lean,这意味着AI能做出没见过的题目了。

去年,OpenAI给GPT-3加上验证器后,做数学题效果明显好于此前微调的办法,可以达到小学生90%的水平。

今年1月,来自MIT+哈佛+哥伦比亚大学+滑铁卢大学的一项联合研究表明, 他们提出的模型可以做高数 了。

总之,科学家们正在努力让AI这个偏科生变得文理双全。

文章须知

责任编辑:疑疑

微信编辑:疑疑

文章由『运筹OR帷幄』转载发布

如需转载请在公众号后台获取转载须知

关键词: 研究人员 搜索算法

上一篇:
下一篇:
精彩阅读

轻松骗你800元,宽带骗局为何如此猖狂?

热点

宽带安装这个环节就能衍生出一些骗局,最常见的就是“宽带代理”。

每日观察!ChatGPT is fun, but not an author ChatGPT利与弊分析

热点

在不到两个月的时间里,人工智能(AI)项目ChatGPT已经成为一种文化轰动。

世界速读:ChatGPT革命,让知乎意外地找到了未来

热点

从2022年年末一直到2023年开春,ChatGPT不仅没有热度逐渐消散,反而是成功出圈变成了全民讨论的大众话题。

事关广电5G号卡配送与互联网渠道运营!中广电移动发布2023年度最新招标与比选公告

热点

2月14日,中广电移动网络有限公司启动了中广电移动2023年度广电5G号卡配送服务项目招标,服务范围为全国。

环球今头条!AI新晋“顶流”ChatGPT将对财务数字化带来哪些影响?

热点

毫无疑问,ChatGPT将是一项非常重要的技术,它将在财务领域发挥巨大的作用,并对社会和个人产生积极影响。

会员喜讯|热烈祝贺AR协会成员单位亿道信息成功登陆深交所主板

热点

AR协会成员单位亿道信息成功登陆深交所主板。

每日精选:行业放大镜:元宇宙赋能文旅与娱乐 XR技术的春节玩法

热点

在刚刚过去的春节期间,全国各地的“元宇宙现象”大爆发,一定程度上也是对该计划的即时回应。

财富

win7各个文件夹的作用?win7更新文件夹在哪里?

资讯

Win7系统RECENT文件目录在:C: Users 用户名 AppData Roaming Microsoft Windows Recent%userprofile% AppData Roaming Microsoft Windows

win7各个文件夹的作用?win7更新文件夹在哪里?

资讯

Win7系统RECENT文件目录在:C: Users 用户名 AppData Roaming Microsoft Windows Recent%userprofile% AppData Roaming Microsoft Windows

两轮电动车的下一站,是增长还是泡沫?

资讯

两轮电动车的下一站,是增长还是泡沫?,疫情过去了,你还会骑“小电驴”吗?

天天信息:微信也要下场做外卖?腾讯回应;马斯克发推称宠物狗是“推特新CEO”;顺丰回应7万元爱马仕运输中烧毁丨邦早报

资讯

微信也要下场做外卖?腾讯回应;马斯克发推称宠物狗是“推特新CEO”;顺丰回应7万元爱马仕运输中烧毁丨邦早报,24小时创投大事

【环球热闻】钉钉、企微、飞书三强争霸:谁会率先盈利?

资讯

钉钉、企微、飞书三强争霸:谁会率先盈利?,办公软件的盈利困局。

环球报道:抢滩她经济与情人节,“电商鲜花”未来可期?

资讯

抢滩她经济与情人节,“电商鲜花”未来可期?,悦己成为鲜花消费的着力点

世界速看:9.56亿收购「踩雷」,南极人难极了?

资讯

9 56亿收购「踩雷」,南极人难极了?,吊牌之王能否绝地求生?

观速讯丨马斯克向中国电商“妥协”简史

资讯

马斯克向中国电商“妥协”简史,从不准入驻到大卖周边,卖车还远吗?

谁还记得元宇宙?

资讯

谁还记得元宇宙?,ChatGPT向上,元宇宙向下。

全球资讯:融资丨「天兵科技」完成Pre-C轮和B+轮融资,君度投资、鸿富资产和范式基金投资

资讯

融资丨「天兵科技」完成Pre-C轮和B+轮融资,君度投资、鸿富资产和范式基金投资,以上两轮资金将用于天兵天龙三号大型液体运载火箭与火箭发动机

轻松骗你800元,宽带骗局为何如此猖狂?

宽带安装这个环节就能衍生出一些骗局,最常见的就是“宽带代理”。

每日观察!ChatGPT is fun, but not an author ChatGPT利与弊分析

在不到两个月的时间里,人工智能(AI)项目ChatGPT已经成为一种文化轰动。

世界速读:ChatGPT革命,让知乎意外地找到了未来

从2022年年末一直到2023年开春,ChatGPT不仅没有热度逐渐消散,反而是成功出圈变成了全民讨论的大众话题。

事关广电5G号卡配送与互联网渠道运营!中广电移动发布2023年度最新招标与比选公告

2月14日,中广电移动网络有限公司启动了中广电移动2023年度广电5G号卡配送服务项目招标,服务范围为全国。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个