将公平注入AI:机器学习模型即使在不公平数据上训练也能产生公平输出

2022-03-15 10:47:15   来源:商业新知网

如何迫使深度度量学习模型首先学习好的特征?

如果使用不平衡的数据集训练机器学习模型,比如一个包含远多于肤色较浅的人的图像的数据集,则当模型部署在现实世界中时,该模型的预测存在严重风险。

但这只是问题的一部分。麻省理工学院的研究人员发现,在图像识别任务中流行的机器学习模型在对不平衡数据进行训练时实际上会编码偏差。即使使用最先进的公平性提升技术,甚至在使用平衡数据集重新训练模型时,模型中的这种偏差也无法在以后修复。

因此,研究人员想出了一种技术,将公平性直接引入模型的内部表示本身。这使模型即使在不公平数据上进行训练也能产生公平的输出,这一点尤其重要,因为很少有平衡良好的数据集用于机器学习。

他们开发的解决方案不仅可以使模型做出更平衡的预测,还可以提高它们在面部识别和动物物种分类等下游任务中的表现。

「在机器学习中,将数据归咎于模型偏差是很常见的。但我们并不总是有平衡的数据。因此,我们需要找到真正解决数据不平衡问题的方法,」主要作者、麻省理工学院计算机科学与人工智能实验室 (CSAIL) 健康 ML 小组的研究生 Natalie Dullerud 说。

定义公平

研究人员研究的机器学习技术被称为深度度量学习(deep metric learning),它是表示学习的一种广泛形式。在深度度量学习中,神经网络通过将相似的照片映射在一起并且将不同的照片映射得很远来学习对象之间的相似性。在训练期间,该神经网络将图像映射到「嵌入空间」中,其中照片之间的相似性度量对应于它们之间的距离。

例如,如果使用深度度量学习模型对鸟类进行分类,它会将金雀的照片一起映射到嵌入空间的一部分中,并将红雀的照片映射到嵌入空间的另一部分中。一旦经过训练,该模型就可以有效地测量它以前从未见过的新图像的相似性。它会学习将看不见的鸟类的图像聚集在一起,但在嵌入空间内离红雀或金雀更远。

这张图片显示了鸟类颜色的两个不同的 PARADE 嵌入

Dullerud 说,模型学习的相似性度量非常稳健,这就是为什么深度度量学习经常被用于面部识别的原因。但她和她的同事想知道如何确定相似性指标是否有偏差。

「我们知道数据反映了社会进程的偏见。这意味着我们必须将重点转移到设计更适合现实的方法上。」Ghassemi 说。

研究人员定义了相似性度量不公平的两种方式。以面部识别为例,如果与那些图像是肤色较浅的人相比,如果将肤色较深的人更靠近彼此嵌入,即使他们不是同一个人,该指标将是不公平的。其次,如果它学到的用于衡量相似性的特征对于多数群体来说比少数群体更好,那将是不公平的。

研究人员对具有不公平相似性指标的模型进行了许多实验,但无法克服模型在其嵌入空间中学到的偏差。

「这很可怕,因为公司发布这些嵌入模型,然后人们对它们进行微调以完成一些下游分类任务是一种非常普遍的做法。但无论你在下游做什么,你根本无法解决嵌入空间中引发的公平问题,」Dullerud 说。

她说,即使用户在下游任务的平衡数据集上重新训练模型(这是解决公平问题的最佳情况),仍然存在至少 20% 的性能差距。

解决这个问题的唯一方法是确保嵌入空间一开始是公平的。

学习单独的指标

研究人员的解决方案称为部分属性去相关 (PARADE),涉及训练模型以学习敏感属性(如肤色)的单独相似性度量,然后将肤色相似性度量与目标相似性度量去相关。如果模型正在学习不同人脸的相似度度量,它将学习使用肤色以外的特征来映射靠近在一起的相似面孔和相距很远的不同面孔。

任何数量的敏感属性都可以通过这种方式与目标相似度度量去相关。并且由于敏感属性的相似性度量是在单独的嵌入空间中学习的,所以在训练后将其丢弃,因此模型中仅保留了目标相似性度量。

他们的方法适用于许多情况,因为用户可以控制相似性度量之间的去相关量。例如,如果模型将通过乳房 X 光照片诊断乳腺癌,临床医生可能希望在最终嵌入空间中保留一些有关生物性别的信息,因为女性患乳腺癌的可能性比男性高得多,Dullerud 解释说。

他们在面部识别和鸟类分类这两项任务上测试了他们的方法,发现无论他们使用什么数据集,它都能减少嵌入空间和下游任务中由偏差引起的性能差距。

展望未来,Dullerud 感兴趣的是如何迫使深度度量学习模型首先学习好的特征。

「您如何正确审核公平性?这是一个悬而未决的问题。你怎么知道一个模型是公平的,或者它只在某些情况下是公平的,那些情况是什么?这些是我真正感兴趣的问题,」她说。

关键词: 相似性度量 研究人员

上一篇:
下一篇:
精彩阅读

营收下滑业务承压,陌陌能否靠当“月老”翻身?

热点

十年磨一剑,而陌陌磨出的这把剑却越来越不够锋利。

三大运营商相继发布2021全年财报,移动电信联通谁输谁赢?

热点

近日,三大电信运营商相继公布了2021全年主要财务和运营数据(预报)。

阿里腾讯大裁员?内部人士:数量被夸大,业务调整优化岗位是有的

热点

知情人士告诉时代周报记者,小娥拼拼项目解散后,相关人员变为内部“活水”。

2022阿里巴巴全球数学竞赛启动,四道大众出题将亮相比赛 奖金近 400 万元

热点

们中有83岁的老人,也有14岁的初中生;有公务员、城管、语文老师,也有程序员、钢厂工人以及医务工作者等。

“屈尊” 社交媒体 奥斯卡能否解决顽疾?

热点

“推特奥斯卡”是学院为保持其曾经拥有的文化重要性而做的最新尝试,并非出于收看奥斯卡典礼正成为小众嗜好这一事实。

解读 | 中国广电“全国一张网”建设布局(骨干网篇)

热点

此前,小编发布关于“中国广电建设首条200G国干传送网,进而组成中国广电首个100G环形网络”的消息。

【天府物联网小报|第七期】成都市第一批智能网联汽车道路测试车辆行驶号牌正式发放

热点

成都市经济和信息化局发布关于征集工业和信息化领域工程招投标模板使用意见和建议的通知。

发标6318万建设5G消息,钱包不鼓的广电为何敢这么“头铁”?

热点

5G消息行业,现在统共有4家运营商发力入围,很可以拼桌麻将了。

在新的数学证明中,人工智能取胜

热点

一个以AlphaGo等人工智能系统为原型的新计算机程序解决了组合学和图论中的几个未解决问题。

财富

50亿元!闻泰科技向境外特定客户正式出货

资讯

今日,国内知名果链公司闻泰科技发布一份《关于产品集成业务向境外特定客户正式出货的公告》。公告中提到,公司的产品集成业务与境外特定客

三星高管:希望在今年上半年结束前取代苹果

资讯

据印度经济时报报道,韩国智能手机巨头三星的一位高管表示,凭借其最新推出的高端设备,三星希望在今年上半年结束前取代苹果,在高端手机领

锐科激光:2021年净利润同比增长60.17%

资讯

光纤激光器供应商武汉锐科光纤激光技术股份有限公司发布了2021年度业绩快报。报告显示,2021年实现营收34 10亿元,同比增长47 18%;净利润4

销量首破百万!小牛电动2021年营收37.05亿元

资讯

近日,小牛电动发布了2021年第四季度和全年财务业绩报告。报告显示,小牛电动2021年全年营业收入37 05亿元,同比增长51 6%;净收入2 258亿元

发布会后三小时,苹果MacStudio主机推迟发货日期

资讯

在北京时间 3 月 9 日凌晨 2 点的高能传送春季发布会后不久,所有 Mac Studio 机型都在数小时内被推迟了发货日期。Apple Insider

董明珠回应退休传闻:现在不是考虑这个事的时候

资讯

据央视财经 报道,今晚董明珠作为全国人大代表、格力电器董事长兼总裁,接受了央视的采访。对于是否考虑退休生活,董明珠回应称:没考虑,

总预算91659.00万元北京联通启动总承包集中采购项目招标

资讯

北京联通日前启动综合接入(大客户接入、传送网、宽带接入、WLAN等)总承包集中采购项目招标,项目总预算金额为91659 00万元。公告显示,项目

2021年中国联通北京内网安全基础设施增补工程中标结果公布

资讯

来自联通官方消息显示,2021年中国联通北京内网安全基础设施增补工程招标结果公布,启明星辰、天融信、上海观安和奇安信四家企业入围。公告

按年算账,多退少补!2021年个税年度汇算开始啦

资讯

动动手指就有钱入账?3月1日至6月30日,迎来2021年度个人所得税综合所得年度汇算。简单来说,就是在平时已预缴税款的基础上,按年算账,多退

排队8个月,惠柏新材创业板IPO之路走得有些缓慢

资讯

相比起同期受理企业,惠柏新材料科技(上海)股份有限公司(以下简称惠柏新材)的创业板IPO之路走得有些缓慢,排队8个月,公司近期对外披露了一

营收下滑业务承压,陌陌能否靠当“月老”翻身?

十年磨一剑,而陌陌磨出的这把剑却越来越不够锋利。

三大运营商相继发布2021全年财报,移动电信联通谁输谁赢?

近日,三大电信运营商相继公布了2021全年主要财务和运营数据(预报)。

阿里腾讯大裁员?内部人士:数量被夸大,业务调整优化岗位是有的

知情人士告诉时代周报记者,小娥拼拼项目解散后,相关人员变为内部“活水”。

2022阿里巴巴全球数学竞赛启动,四道大众出题将亮相比赛 奖金近 400 万元

们中有83岁的老人,也有14岁的初中生;有公务员、城管、语文老师,也有程序员、钢厂工人以及医务工作者等。

“屈尊” 社交媒体 奥斯卡能否解决顽疾?

“推特奥斯卡”是学院为保持其曾经拥有的文化重要性而做的最新尝试,并非出于收看奥斯卡典礼正成为小众嗜好这一事实。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马