全球即时:一文看懂AI数学发展现状,清华校友朱松纯学生一作,还整理了份必备阅读清单

2023-01-02 15:40:37   来源:创业邦

任务模型数据集一步到位


(资料图)

编者按:本文来自微信公众号 量子位(ID:QbitAI),创业邦经授权发布。

AI学数学,确实有点火。

且不论这两大领域的大拿纷纷为其站台,就是每次相关进展一出炉,就受到众多关注,比如AI求解偏微分方程。

既然如此,AI学数学到底学得怎么样了。

现在有团队专门梳理了十年发展历程,回顾了关键任务、数据集、以及数学推理与深度学习交叉领域的方法,评估现有的基准和方法,并讨论该领域未来的研究方向。

值得一提的是,他们还很贴心的整理了相关资源,在Github上放上了阅读清单以供食用。

接下来,就带你一文看尽。

一文看懂AI数学发展现状

在这篇调查报告中,作者回顾了深度学习在数学推理方面的进展,主要包括了几个方面。

任务和数据集;神经网络和预训练语言模型;大型语言模型的语境学习;现有基准和未来方向。

首先,作者梳理了目前可用于深度学习数学推理的各种任务和数据集,大体任务主要分为这几个大类。

1、数学应用题MWP

几十年来,开发自动解决数学应用题的算法,一直是NLP研究方向所在。一个涉及人物、实体和数量的简短表述,可用一组方程来模拟,方程的解法揭示了问题的最终答案。

MWPs对NLP系统的挑战在于对语言理解、语义解析和多种数学推理能力的需求。

大多数MWP数据集都提供了注释方程来解决。为了提高求解器的性能和可解释性,MathQA用精确的操作程序进行注释;MathQA-Python则提供具体的Python程序;还有数据集采用多步骤的自然语言,来对问题进行注释,这样更适合人类的阅读。Lila用Python程序的原理注释了许多前面提到的MWP数据集。

2、定理证明TP

即问题是通过一连串的逻辑论证来证明一个数学主张的真理。最近,人们对于交互式定理证明器(ITP)中使用语言模型来进行定理证明的关注越来愈多。

为了在ITP中证明一个定理,首先需用编程语言来陈述,然后通过生成 “证明步骤 “来简化,直到它被简化为已知事实。其结果是一个步骤序列,构成一个验证的证明。

其数据源包括与ITP对接的交互式学习环境,从ITP库证明中得到的数据集,比如CoqGym、Isabelle、Lean、Lean-Gym、miniF2F等。

3、几何问题解决GPS

与数学单词问题不同,几何问题解决(GPS)是由自然语言和几何图组成。多模态输入包括了几何元素的实体、属性和关系,而目标是找到未知变量的数学解。

基于这样的特性,用深度学习来解决GPS问题就颇具挑战,因为它涉及解析多模态信息、符号抽象、使用定理知识和进行定量推理的能力。

早期数据集相对较小或不公开,也就限制了深度学习方法的发展。为应对这一限制,有包括Geometry3K(由3002个几何问题组成,并对多模态输入进行了统一的逻辑形式注释)、以及新出炉的GeoQA、GeoQA+、UniGeo的引入。

4、数学问答MathQA

数字推理是人类智力中的一种核心能力,在许多NLP任务中发挥着重要作用。除了定理证明、数学应用题之外,还有一系列围绕数学推理的QA基准。

近段时间相关数据集大量诞生,比如QuaRel、McTaco、Fermi等,但最新研究表明,最先进的数学推理系统可能存在推理的脆性,即模型依靠虚假信号来达到看上去令人满意的性能。

为了解决这一问题,在各个方面诞生了新基准,比如MATH,由具有挑战性的竞赛数学组成,以衡量模型在复杂情况下的问题解决能力。

除此之外,还有一些其他的数学任务,作者还专门汇总了表格,梳理了各个任务的相关数据集。

三大深度神经网络模型

接着,团队梳理在数学推理任务中,主要使用的几大深度神经网络模型。

Seq2Seq网络,已成功应用于上述四种关键任务当中。它使用编码器-解码器架构,将数学推理形式化为一个序列生成任务,基本思路是将输入序列(如数学问题)映射到输出序列( 如方程式、程序和证明)。常见的编码器和解码器包括LSTM、GRU等。

基于图的数学网络。一些特定的数学表达式(比如AST、图)所蕴含的结构化信息,并不能被Seq2Seq方法明确地建模。为了解决这个问题, 基于图的神经网络来模拟表达式中的结构。比如Sequence-to-tree模型、ASTactic等模型。

基于注意力的数学网络,注意力机制已成功应用于NLP、CV等问题中,在解码过程中考虑了输入的隐藏变量。最近,研究人员发现,它可以用来识别数学概念之间的重要关系,已被应用于数学应用题(MATH-EN)、几何题、定理证明。

除此之外,还有CNN、多模态网络等,在这个领域,视觉输入使用ResNet或Faster-RCNN进行编码,而文本表示则通过GRU或LTSM获得。随后,使用多模态融合模型学习联合表示,如BAN、FiLM和DAFA。

在特定任务中,有使用擅长空间推理的GNN,用于几何问题解析;WaveNet被应用于定理证明,由于其能够解决纵向时间序列数据;还有Transformer生成数学方程等。

这其中,频频出现进展的,效果惊艳的大语言模型,在数学推理上表现得又是如何呢?

事实上存在一些挑战,首先,因为模型训练并非专门针对数学数据的训练,所以在数学任务的熟练程度低于自然语言任务。而且相较于其他任务数据,数学数据相对较少;其次,预训练模型规模的增长,让下游特定任务从头训练成本很高;最后,从目标来看,模型可能很难学习数学表示或高级推理技能。

作者分析了自监督学习、特定任务微调两种表现。

而在现有数据集和基准的分析中,研究团队看到了一些缺陷,包括对对低资源环境的关注有限、不充分的数字表示、不一致的推理能力。

最后,团队从泛化和鲁棒性、可信的推理、从反馈中学习、多模态数学推理等方面探讨了未来的研究方向。

还整理了份AI数学阅读清单

这篇关于AI数学的调查报告,由UCLA、圣母大学、华盛顿大学等机构的研究人员共同完成。

第一作者是来自UCLA的Pan Lu,目前正读博四,受到KaiWei Chang、朱松纯等教授指导,此前曾获清华硕士学位。

共同作者还有同样是UCLA的邱亮,今年毕业已是亚马逊Alexa AI的应用科学家,曾受朱松纯和Achuta Kadambi教授的指导,是上海交大校友。

他们还整理了份数学推理和人工智能研究课题的阅读清单,放在GitHub上。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

关键词: 人工智能 一文看懂AI数学发展现状,清华校友朱

上一篇:
下一篇:
精彩阅读

全球即时:一文看懂AI数学发展现状,清华校友朱松纯学生一作,还整理了份必备阅读清单

资讯

一文看懂AI数学发展现状,清华校友朱松纯学生一作,还整理了份必备阅读清单,任务模型数据集一步到位

世界微速讯:2022 年的产品观察思考碎片

资讯

2022年的产品观察思考碎片,很多产品经理的误解:你以为你在做产品,实际上你是在做销售。

【全球时快讯】爱奇艺拨不开“迷雾”

资讯

爱奇艺拨不开“迷雾”,2023年悬疑依旧是热门选择。

全世界都爱“老头乐”

资讯

全世界都爱“老头乐”,老头乐已经占领了中国,正在占领全世界的路上。

环球看点!放开之后,中国出海人要大干一场

资讯

放开之后,中国出海人要大干一场,对于不少出海人来说,三年的等待后迎来的“彻底出入自由”,也让他们大大松了口气,摩拳擦掌准备大干一场。

天天通讯!前世界首富疯狂“降本”:断厕纸、辞保洁、腾办公室、关数据中心

资讯

前世界首富疯狂“降本”:断厕纸、辞保洁、腾办公室、关数据中心,陷入危机马斯克,正在千方百计地节省开支。

环球热点评!2022,国剧重获观众信任

资讯

2022,国剧重获观众信任,好的开始,需要延续

天天快看:以后还能看到各路大片吗?

资讯

以后还能看到各路大片吗?,这些成本巨高的文化商品,可能只是某个历史时期的特殊产物。

张勇要什么

资讯

张勇要什么,张勇的既要又要还要:敏捷、要性和杀性。

李子柒“杀”回来了,这一次能夺回属于她的一切?

资讯

李子柒“杀”回来了,这一次能夺回属于她的一切?,如何保持新鲜感和吸引力是一道难题

财富

全球即时:一文看懂AI数学发展现状,清华校友朱松纯学生一作,还整理了份必备阅读清单

资讯

一文看懂AI数学发展现状,清华校友朱松纯学生一作,还整理了份必备阅读清单,任务模型数据集一步到位

世界微速讯:2022 年的产品观察思考碎片

资讯

2022年的产品观察思考碎片,很多产品经理的误解:你以为你在做产品,实际上你是在做销售。

【全球时快讯】爱奇艺拨不开“迷雾”

资讯

爱奇艺拨不开“迷雾”,2023年悬疑依旧是热门选择。

全世界都爱“老头乐”

资讯

全世界都爱“老头乐”,老头乐已经占领了中国,正在占领全世界的路上。

环球看点!放开之后,中国出海人要大干一场

资讯

放开之后,中国出海人要大干一场,对于不少出海人来说,三年的等待后迎来的“彻底出入自由”,也让他们大大松了口气,摩拳擦掌准备大干一场。

天天通讯!前世界首富疯狂“降本”:断厕纸、辞保洁、腾办公室、关数据中心

资讯

前世界首富疯狂“降本”:断厕纸、辞保洁、腾办公室、关数据中心,陷入危机马斯克,正在千方百计地节省开支。

环球热点评!2022,国剧重获观众信任

资讯

2022,国剧重获观众信任,好的开始,需要延续

天天快看:以后还能看到各路大片吗?

资讯

以后还能看到各路大片吗?,这些成本巨高的文化商品,可能只是某个历史时期的特殊产物。

张勇要什么

资讯

张勇要什么,张勇的既要又要还要:敏捷、要性和杀性。

李子柒“杀”回来了,这一次能夺回属于她的一切?

资讯

李子柒“杀”回来了,这一次能夺回属于她的一切?,如何保持新鲜感和吸引力是一道难题

中国广电曾庆军:48万个700MHz基站建设已完成,“192”号段用户已超500万户

曾庆军表示,2022年中国广电砥砺前行、与时间赛跑,完成了广电5G网络分布式控制面与用户面分离的核心网建设。

时趣荣获2022北京数字经济企业100强

时趣作为广告服务行业的平台型公司,入选2022北京数字经济企业100强榜单。

【速看料】言中了几条?——“2022中国互联网十大预测”年终回顾

如今在2022年即将结束的时候,我们一起来回顾一下当初的那些预言到底哪些说中了、哪些没有实现。

“钉钉进步体”字体上线,永久免费商用

12月29日消息,12月28日上午,钉钉在杭州正式开启7 0版本产品发布会。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个