别再无脑wwm了!在下游任务中不一定有效!

2022-04-15 11:36:07   来源:商业新知网

大数据文摘授权转载自夕小瑶的卖萌屋

作者:python

近几年来,整词遮掩(whole word masking, wwm)作为一种(几乎)不增加计算量,却能大大提升模型表现的方法,被广泛地运用在预训练语言模型中,以促进粗粒度语义的整体建模[1]。

然而,这种方法真的是通用的么? 论文作者认为,中文里词是一个组合单元,而非英文中的独立单元。因此,对中文的整词遮掩预训练并非天然有效的。论文作者在中文语法改错任务上做了实验。结果表明,在字级别纠错任务上,wwm效果反而不如逐字遮掩效果好。而在整体任务效果上,将逐字遮掩与整词遮掩结合表现更佳。

该论文为复旦自然语言处理组与腾讯AI lab的工作,发表于ACL 2022 findings.

论文题目:

"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction

论文链接:

(ACL Findings 2022) https://arxiv.org/abs/2203.00286v2

背景

掩码语言模型与整词遮掩

掩码语言模型是预训练模型中的一个常用的自监督任务。通过遮掩部分输入内容,让模型预测还原的方式,增强模型的语言建模能力。

而整词遮掩方法,利用中文分词的结果,在掩码预测时以词为单位进行遮掩,可以提高对粗粒度语义的建模能力。如下图所示,original masking只遮掩的“模”,模型可以很容易地利用输入的“型”来预测被遮掩的内容,从而减低语言模型建模难度。而WWM(whole word masking)将“模型”两字均遮掩掉,可以促进模型整体建模这个词汇,促进长距离依赖的建模。

语法改错任务

论文在中文语法改错任务上展开了任务探索。具体而言,可以分为替换和插入两个任务。如下图所示。替换任务中,给定句子和需要替换的语段,模型生成替换内容以构成通顺语句;插入任务中,给定句子,插入点与插入长度,模型生成插入内容以形成通顺的语句。

实验结果

实验结果如下图所示。其中,Ours的三个模型是该论文作者自己从头预训练的三个模型,用以公平比较。-clm仅使用字级别掩码预测,-wwm使用整词掩码预测,-clm-wwm同时使用两种掩码预测方式。

从中可以看出,在长度为1时,即对单字进行补充或替换,clm具有明显的优势。而随着需要替换的长度增加,wwm的优势更为明显。整体而言,看average的结果,clm和wwm同时使用可以取得更好的表现。

而在下游任务上的实验表明,同时使用clm与wwm,在几种预训练设置下,都能在下游任务上取得和wwm相当的表现。

总结

整体而言,这篇文章其实比较tricky。选择语法改错中按字插入、替换这种任务,字级别语言建模任务自然可以取得更好的表现。因为字级别遮掩能够促进模型建模词内的依赖关系。

这种因地制宜,因材炼丹的思想是有价值的。在做具体任务的时候,必然要考虑具体任务的特点。不会有一种方法简单有效又能通吃所有任务的。

当然,因地制宜选择预训练任务肯定是最合适的,但如果拿不准的话,wwm+clm可能是一种更稳妥的选择。

类似的思想,还有一些字词多粒度预训练语言模型,如AMBERT[2],LatticeBERT[3]等,通过在预训练输入中将字词同时考虑进去,以提升下游任务表现。

关键词: 语言模型 如下图所示

上一篇:
下一篇:
精彩阅读

别再无脑wwm了!在下游任务中不一定有效!

热点

掩码语言模型是预训练模型中的一个常用的自监督任务。

Digitalπ专访|打造赛道首只独角兽,我们第一时间和奇点云、GrowingIO CEO们聊了聊

热点

作为“数据云+分析云”的领跑者,奇点云和GrowingIO欲成为数字商业赛道的第一只独角兽。

【见多识广】一分钟,带你了解虚拟现实(VR)的原理

热点

因为人眼天然拥有以上这些视觉差异和变焦功能,你眼前的这个场景,才能在大脑的加工后变得立体和纵深。

花点时间签约虚拟偶像阿喜:什么是年轻人的鲜花“时尚”?

热点

花点时间也更希望用户能够通过香气、香韵表达真实的自我,这就更好地将香水消费的“悦他”需求转向为“悦己”需求。

标贝科技数据业务体系全面升级 致力于构建最安全的数据工场

热点

近年来,随着AI技术在各领域场景的落地应用,人工智能产业进入迅猛发展期。

“免费”ERP真不免费

热点

当企业找了免费ERP的供应商过来谈的时候,就会发现所谓免费只是基础功能的免费,限制性使用。

知乎回港二次上市:今日资本、李开复等套现11亿,腾讯成为第一大股东

热点

赴美上市频频受挫至今,知乎悄然酝酿了两个大动作。

SaaS公司都在谈增长,那为什么真正增长的公司,却少之又少?

热点

没有实现增长的SaaS公司,大都是因为在其真正获得增长能力之前,过早地踩下增长的油门。

卫瓴CRM怎么样?卫瓴CRM好用吗?评价如何?

热点

本篇文章关于卫瓴CRM的介绍。

财富

主流空调品牌推出双向流新风空调,这是为什么呢?

资讯

在疫情背景下,人们对健康诉求日趋强烈,具备新风换气能力的空调产品由此也受到消费者越来越多的关注。从市场来看,空调整体市场持续下行,

深圳新设保险公司法人机构一次性奖励最高5000万

资讯

来深圳新设保险公司法人机构,一次性奖励最高5000万!近日,深圳市更新了支持金融企业发展的措施,该政策一经公布,便刷屏保险业朋友圈。而

30系显卡的“天下”了!NVIDIA发布近年显卡天梯图

资讯

一直以来,显卡的性能孰强孰弱都是爱好者讨论的重头,近日,NVIDIA官方以视频的形式,发布了自家近年显卡的天梯图,为性能强弱带来了一份标

稳定投资者预期被重点提及  鼓励社保等配置权益类资产

资讯

重磅利好来了!4月11日晚间,证监会官网发文称,为落实中央经济工作会议和近期召开的国务院常委会议、国务院金融委会议精神,进一步支持上市

投资者弃购新股,发现资金提前被券商冻结

资讯

投资者想弃购新股,发现资金提前被券商冻结,券商解释称怕投资者违约,本栏认为投资者打新还是应该尽可能遵守契约精神,不要想着中签后再弃

优衣库将携手泡泡玛特推出联名系列UT,首次与中国品牌合作

资讯

4月13日,北京商报记者从优衣库品牌方了解到,优衣库将携手潮玩品牌泡泡玛特,于4月29日推出联名系列UT,这是优衣库首次与中国潮流文化品牌

刷了几百块进去,得不到推流,准备放弃了吗?

资讯

打开美颜,大眼瘦脸,刘梅穿一身红裙,本就漂亮的她在镜头里显得更年轻了。53岁的刘梅从小嗓门儿清亮,喜欢唱歌,玩儿了一年直播,她也想当

Cocos宣布完成5000万美元B轮融资,投资方为建信信托

资讯

4月11日消息,日前,Cocos宣布完成5000万美元B轮融资,投资方为建信信托、GGV纪源资本、声网Agora等。据悉,本轮融资后,Cocos将借助资本的

一天50条动态招揽生意“反催收”“债闹”是逃废债

资讯

你听说过反催收债闹吗?北京商报记者注意到,最近有不少黑产已经盯上这个生意。一些所谓的债务咨询或债务管理专家,在微博、QQ、贴吧、抖音

微软又加强安全提醒:Win11系统将关闭内存完整性功能

资讯

从微软前几天公布的发展方向来看,安全在Win11接下来的更新升级中会越来越重要,微软会带来多项重磅安全功能更新,比如网络防钓鱼保护,这

爱立信一季度净销售额551亿瑞典克朗超预期,网络业务持续增长

日前,爱立信发布了2022年第一季度财报。

Digitalπ专访|打造赛道首只独角兽,我们第一时间和奇点云、GrowingIO CEO们聊了聊

作为“数据云+分析云”的领跑者,奇点云和GrowingIO欲成为数字商业赛道的第一只独角兽。

【见多识广】一分钟,带你了解虚拟现实(VR)的原理

因为人眼天然拥有以上这些视觉差异和变焦功能,你眼前的这个场景,才能在大脑的加工后变得立体和纵深。

花点时间签约虚拟偶像阿喜:什么是年轻人的鲜花“时尚”?

花点时间也更希望用户能够通过香气、香韵表达真实的自我,这就更好地将香水消费的“悦他”需求转向为“悦己”需求。

标贝科技数据业务体系全面升级 致力于构建最安全的数据工场

近年来,随着AI技术在各领域场景的落地应用,人工智能产业进入迅猛发展期。

Stellantis集团与标致雪铁龙荷兰财务公司达成转让协议

4月13日,Stellantis集团宣布,神龙汽车有限公司(以下简称神龙公司)和Stellantis集团旗下Banque PSA Finance的全资子公司标致雪铁龙荷兰

时隔263天获批版号,中概股逆势上涨

这是自2021年7月22日以来,国家新闻出版署首次下发的游戏版号,总共时隔263天。在此次获批版号的游戏中,重点游戏包括百度的《进击的兔子》

中保研汽车技术研究试验中心发布7款车型测评结果

在中国保险行业协会的指导下,在中保研汽车技术研究院有限公司和通用技术中国汽车工程研究院股份有限公司的支持下,中保研汽车技术研究试验

机器人时代,座舱的人机交互将走向何方?

智能汽车是机器人的第一形态,对应的智能座舱也引领了机器人时代人机交互发展的新方向。历史上,每一次交互方式的改变,都重塑了智能设备的

研究公司:2021年全球电信市场资本支出同比增长9%

来自市场研究公司Dell& 39;Oro Group的最新报告显示,初步估算表明,2021年全球电信市场资本支出(包括无线和有线电信投资总和)按名义美元

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建