前沿热点:7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA

2023-05-22 10:07:26   来源:商业新知网

本周论文包括 10% 成本定制专属类 GPT-4 多模态大模型; GPT-4 拿下最难数学推理数据集新 SOTA 等研究。

目录:


(资料图片仅供参考)

Transfer Visual Prompt Generator across LLMs

Progressive-Hint Prompting Improves Reasoning in Large Language Models

AutoML-GPT: Automatic Machine Learning with GPT

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

Unlimiformer: Long-Range Transformers with Unlimited Length Input

Detecting Logic Bugs of Join Optimizations in DBMS

REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths

论文 1:Transfer Visual Prompt Generator across LLMs

作者:Ao Zhang 、 Hao Fei 等

论文地址:https://arxiv.org/pdf/2305.01278.pdf

摘要: 本文提出的 VPGTrans 方法,可以快速 (少于 10% 训练时间) 将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。比如,相比于从头训练视觉模块,本文可以将 BLIP-2 FlanT5-XXL 的训练开销从 19000 + 人民币缩减到不到 1000 元:

通过 VPGTrans 框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如在 LLaMA-7B 和 Vicuna-7B 基础上制作了 VL-LLaMA 和 VL-Vicuna。

开源多模态对话模型:本文开源了 VL-Vicuna,可实现高质量的多模态对话:

推荐: 10% 成本定制专属类 GPT-4 多模态大模型。

论文 2:Progressive-Hint Prompting Improves Reasoning in Large Language Models

作者:Chuanyang Zheng、Zhengying Liu 等

论文地址:https://arxiv.org/abs/2304.09797

摘要: 近期,华为联和港中文发表论文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出 Progressive-Hint Prompting (PHP),用来模拟人类做题过程。在 PHP 框架下,Large Language Model (LLM) 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。要使用 PHP,只需要满足两个要求: 1) 问题能够和推理答案进行合并,形成新的问题;2) 模型可以处理这个新的问题,给出新的推理答案。

结果表明,GP-T-4+PHP 在多个数据集上取得了 SOTA 结果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。该方法大幅超过 GPT-4+CoT。比如,在现在最难的数学推理数据集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 数据集的 Nember Theory (数论) 子集提升 6.1%, 将 MATH 整体提升到 53.9%,达到 SOTA。

推荐: GPT-4 拿下最难数学推理数据集新 SOTA。

论文 3:AutoML-GPT: Automatic Machine Learning with GPT

作者:Shujian Zhang、Chengyue Gong 等

论文地址:https://papers.labml.ai/paper/35151be0eb2011edb95839eec3084ddd

摘要: 近期,来自德克萨斯州大学奥斯汀分校的研究者提出一种新思路 —— 开发任务导向型 prompt,利用 LLM 实现训练 pipeline 的自动化,并基于此思路推出新型系统 AutoML-GPT。

AutoML-GPT 使用 GPT 作为各种 AI 模型之间的桥梁,并用优化过的超参数来动态训练模型。AutoML-GPT 动态地接收来自 Model Card [Mitchell et al., 2019] 和 Data Card [Gebru et al., 2021] 的用户请求,并组成相应的 prompt 段落。最后,AutoML-GPT 借助该 prompt 段落自动进行多项实验,包括处理数据、构建模型架构、调整超参数和预测训练日志。

AutoML-GPT 通过最大限度地利用其强大的 NLP 能力和现有的人工智能模型,解决了各种测试和数据集中复杂的 AI 任务。大量实验和消融研究表明,AutoML-GPT 对许多人工智能任务(包括 CV 任务、NLP 任务)是通用的、有效的。

推荐: 通用系统 AutoML-GPT 来了。

论文 4:MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

作者:Lili Yu 、 Daniel Simig 等

论文地址:https://arxiv.org/pdf/2305.07185.pdf

摘要: Meta AI 发表的一篇新论文,提出了一种名为「 MEGABYTE」的多尺度解码器架构,可以对超过一百万字节的序列进行端到端可微建模。

重要的是,该论文展现出了抛弃 tokenization 的可行性,被 Karpathy 评价为「很有前途(Promising)」。

该方法将字节序列分割成固定大小的 patch,和 token 类似。

MEGABYTE 模型由三部分组成:

1. patch 嵌入器,它通过无损地连接每个字节的嵌入来简单地编码 patch;

2. 全局模块 —— 带有输入和输出 patch 表征的大型自回归 transformer;

3. 局部模块 —— 一个小型自回归模型,可预测 patch 中的字节。

至关重要的是,该研究发现对许多任务来说,大多数字节都相对容易预测(例如,完成给定前几个字符的单词),这意味着没有必要对每个字节都使用大型神经网络,而是可以使用小得多的模型进行 intra-patch 建模。

推荐: 一定要「分词」吗?Andrej Karpathy:是时候抛弃这个历史包袱了。

论文 5:Unlimiformer: Long-Range Transformers with Unlimited Length Input

作者:Amanda Bertsch 、 Uri Alon 等

论文地址:https://arxiv.org/pdf/2305.01625v1.pdf

摘要: 来自卡内基梅隆大学的研究者引入了 Unlimiformer。这是一种基于检索的方法,这种方法增强了预训练的语言模型,以在测试时接受无限长度的输入。

Unlimiformer 可以被注入到任何现有的编码器 - 解码器 transformer 中,能够处理长度不限的输入。给定一个长的输入序列,Unlimiformer 可以在所有输入 token 的隐藏状态上构建一个数据存储。然后,解码器的标准交叉注意力机制能够查询数据存储,并关注前 k 个输入 token。数据存储可以存储在 GPU 或 CPU 内存中,能够次线性查询。

Unlimiformer 可以直接应用于经过训练的模型,并且可以在没有任何进一步训练的情况下改进现有的 checkpoint。Unlimiformer 经过微调后,性能会得到进一步提高。本文证明,Unlimiformer 可以应用于多个基础模型,如 BART(Lewis et al.,2020a)或 PRIMERA(Xiao et al.,2022),且无需添加权重和重新训练。在各种长程 seq2seq 数据集中,Unlimiformer 不仅在这些数据集上比 Longformer(Beltagy et al.,2020b)、SLED(Ivgi et al.,2022)和 Memorizing transformers(Wu et al.,2021)等强长程 Transformer 表现更好,而且本文还发现 Unlimiform 可以应用于 Longformer 编码器模型之上,以进行进一步改进。

推荐: Unlimiformer 把上下文长度拉到无限长。

论文 6:Detecting Logic Bugs of Join Optimizations in DBMS

作者机构:浙江大学

摘要: 浙大的研究者提出了一种名为 Transformed Query Synthesis(TQS)的方法。在检测 DBMS 中连接优化的逻辑漏洞任务上,TQS 是一种普适且成本高效的全新工具。

为了展现该方法的通用性和有效性,研究者在四个常用 DBMS 上对 TQS 进行了评估:MySQL、MariaDB、TiDB 和 PolarDB。运行了 24 小时后,TQS 成功找到了 115 个漏洞,包括 MySQL 中 31 个、MariaDB 中 30 个、TiDB 中 31 个、PolarDB 中 23 个。通过分析根本原因,可归纳出这些漏洞的类型,其中 MySQL 中的漏洞有 7 种、MariaDB 有 5 种、TiDB 有 5 种、PolarDB 有 3 种。研究者已经将发现的漏洞提交给相应的社区并且收到了积极的反馈。

图 2 给出了 TQS 的架构概况。给定一个基准数据集和目标 DBMS,TQS 通过基于数据集生成查询来搜索 DBMS 可能存在的逻辑漏洞。TQS 有两大关键组件:数据引导的模式和查询生成(DSG)和知识引导的查询空间探索(KQE):

推荐: 浙大研究获 SIGMOD 2023 最佳论文。

论文 7:REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths

作者:Xu Chen 、 Jingsen Zhang 等

论文地址:https://arxiv.org/pdf/2303.00168.pdf

摘要: 来自中国人民大学和华为的研究者联合构建了一个新的可解释推荐数据集 ——REASONER (Real Users Labeled Multi-aspect Explanations for Explainable Recommendation)。

该数据集构建于视频推荐场景,包含了多种推荐解释目的的真值,例如,增强推荐说服力、解释信息量以及用户满意度等。可广泛应用于可解释推荐、推荐系统纠偏以及基于心理学的推荐等领域。同时,该研究也开发了一个可解释推荐工具包,包含了十个知名的可解释推荐模型方便大家使用。

REASONER 数据集具有以下几个亮点:

多模态的候选解释:用户可以根据自身偏好为每个推荐的视频选择文本解释或视觉解释。

多方面的解释真值:从推荐说服力、解释信息量和用户满意度三个方面提供推荐解释真值。

真实用户标注:数据集中的解释真值的标注者正是产生交互记录的人。

丰富的用户特征:该研究收集了参与用户的多方面的特征信息(已脱敏)。

推荐: 多角度、真实用户标注,人大 & 华为推出可解释推荐数据集 REASONER。

关键词:

精彩阅读

前沿热点:7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA

热点

本周论文包括10%成本定制专属类GPT-4多模态大模型;GPT-4拿下最难数学推理数据集新SOTA等研究。

没有秘密!拼多多旗下多多买菜门店端App被曝非法监听用户手机 环球热点评

热点

综合下来看,拼多多这家公司着实存在为了自己的商业利益而利用技术手段非法获取用户隐私的一些事情。

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型|世界通讯

热点

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。

智能终端需求怎么样? 全球实时

热点

科技下游终端需求:预计23年消费电子主要终端合计出货同比-2%。

ChatGPT APP标志AI行情新阶段

热点

智能手机作为交互最为频繁、刚需应用最多的终端,天然具备海量交互数据的入口,为大模型升华提供源源不断的

焦点热门:手机版ChatGPT初体验

热点

ChatGPTAPP仅支持iPhone8及更新的机型,支持iOS16 1或者更新的系统。

微博打通「二度关系」,内容创作者该如何接招?_当前消息

热点

不知道大家有没有注意到,微博改版了——推出了新版关注流,打通了二度关系。

聚道云是什么?聚道云SaaS有什么功能特点?

热点

聚道云是一款SaaS软件,它可以帮助企业管理各种业务流程和数据。

财富

焦点速看:增长的阿里国际,出海走到哪儿了

资讯

增长的阿里国际,出海走到哪儿了,社会与企业的增长仰赖于创新带来好商品和好服务,但手持这柄双刃剑,势必

今日热讯:微信刷掌支付正式发布;ChatGPT炒股,一年多回报率超500%;董明珠称格力没买过别人的技术;B站试水付费专属视频丨邦早报

资讯

微信刷掌支付正式发布;ChatGPT炒股,一年多回报率超500%;董明珠称格力没买过别人的技术;B站试水付费专属

美团「杀入」大模型:已秘密研发数月,王兴很关注_世界热头条

资讯

美团「杀入」大模型:已秘密研发数月,王兴很关注,AI大模型横空出世,让各家互联网公司的一号位或决策层兴

韩国漂流记:明星在面前,咖啡在手里,中国互联网公司在广告墙

资讯

韩国漂流记:明星在面前,咖啡在手里,中国互联网公司在广告墙,景色美的地方很多,但韩国人会把美的东西变

世界今热点:电动车后,中国摩托车即将登上世界舞台

资讯

电动车后,中国摩托车即将登上世界舞台,摩托车从单纯的交通工具,演变成一种新的娱乐文化,大排量摩托将成

爱优腾的涅槃:当旧供给瓦解之后|全球今头条

资讯

爱优腾的涅槃:当旧供给瓦解之后,产业环境、参赛选手变了。

天天观察:比尔盖茨VS乔布斯:一生劲敌,双星闪耀

资讯

比尔盖茨VS乔布斯:一生劲敌,双星闪耀,只要研究商业,就注定避不开苹果这家有史以来最伟大的商业企业,以

吉根斯坦利,一天不收购就难受? 世界报道

资讯

吉根斯坦利,一天不收购就难受?,吉利在全球范围内买买买。

和AI谈恋爱,掏空我钱包|每日关注

资讯

和AI谈恋爱,掏空我钱包,边恋爱边氪金

为什么年轻人都不玩飞盘了?

资讯

为什么年轻人都不玩飞盘了?,相较于其他运动,关注飞盘的人其实很少,飞盘赛事无法激起太大的流量和商业曝

没有秘密!拼多多旗下多多买菜门店端App被曝非法监听用户手机 环球热点评

综合下来看,拼多多这家公司着实存在为了自己的商业利益而利用技术手段非法获取用户隐私的一些事情。

对话哥伦比亚大学教授俞舟:人工智能公司的竞争,到最后还是产品和服务的竞争

按照俞舟的想法,ChatGPT更像是一种产品主义的成功。

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型|世界通讯

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。

智能终端需求怎么样? 全球实时

科技下游终端需求:预计23年消费电子主要终端合计出货同比-2%。

ChatGPT APP标志AI行情新阶段

智能手机作为交互最为频繁、刚需应用最多的终端,天然具备海量交互数据的入口,为大模型升华提供源源不断的

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个