首页> 热点 >

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

2022-04-29 14:54:35 来源：商业新知网

【导读】干净的数据对于你的 AI 模型的表现有多重要？

有研究称，他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误（缺失标签、类标签错误等）。他们在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。

通常情况下，模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年，由于数据是公司最重要的资产之一，开发人员也经常因数据质量低劣而感到工作棘手。本文中，总部位于德国柏林的面向视觉 AI 从业者的下一代注释工具提供商 Hasty，希望通过更快、更高效地清理数据来简化和降低视觉 AI 解决方案开发的风险。

他们开发了 AI Consensus Scoring (AI CS) 功能，它是 Hasty 生态系统的一部分（Hasty 是该公司开发的一个端到端的 AI 平台，可让 ML 工程师和领域专家更快地交付计算机视觉模型，从而缩短变革性产品和服务的上市时间），该功能使得手动共识评分（consensus scoring）成为过去，其将 AI 集成到质量控制流程中，使其更快、更便宜，并且随着用户添加的数据越多，性能扩展越好。

本文中，研究者将利用 AI CS 功能来改进、更新和升级最流行的目标检测基准数据集 PASCAL VOC 2012 。

我们先来简单介绍一下 PASCAL，它是一个著名的学术数据集，可用于目标检测和语义分割等视觉 AI 任务的基准模型。PASCAL 已有十多年的历史，现在还一直被广泛使用，近 4 年就有 160 篇论文使用它。

PASCAL 在过去十年中没有改变，世界各地的团队在科研中都保持该数据集的「原样」进行科研。但是，该数据集是很久以前注释的，当时算法还没有今天准确，注释要求也没有那么严格，会出现很多错误。例如下图所示：尽管马是在前景并且可见，但没有马的标签，这些质量问题在 PASCAL 中很常见。

如果让人工来处理 PASCAL 数据集，成本高昂且非常耗时，该研究使用 AI 进行质量控制并提高 PASCAL 的质量，他们的目的是如果数据质量足够好，模型性能会不会随之提高，为了执行这个测试，他们设置了一个包含以下步骤的实验：

在 Hasty 平台上使用 AI Consensus Scoring 功能清洗 PASCAL VOC 2012；

使用 Faster R-CNN 架构在原始的 PASCAL 训练集上训练自定义模型；

使用相同的 Faster R-CNN 架构和参数，在清理后的 PASCAL 训练集上准备一个自定义模型；

实验之后，得出结论。

下面为实验过程，以第一人称进行编译整理，看看他们是如何做到的以及结果如何？

清洗 PASCAL VOC 2012

我们的首要任务是改进数据集。我们从 Kaggle 获得数据集，将其上传到 Hasty 平台，导入注释，并安排两次 AI CS 运行。对于那些不熟悉我们 AI CS 功能的人，该功能支持类、目标检测和实例分割审查，因此它会检查注释的类标签、边界框、多边形和掩码。在进行审查时，AI CS 会寻找额外或缺失的标签、伪影、错误类别的注释，以及形状不精确的边界框或实例。

PASCAL VOC 2012 包含 17.120 张图像和 20 个不同类别的约 37.700 个标签。我们已经针对 28.900 (OD) 和 1.320 (Class) 潜在错误任务运行了目标检测和类别审查。

AI CS 可以让你发现潜在问题。然后，你可以专注于修复错误，而无需花几天或几周的时间来查错。
我们要检查这些潜在错误并解决它们，最重要的是，我们希望修改后的注释比原始注释器更准确。具体包括：
当 AI CS 检测到潜在错误时，我们尝试修复每张图像上所有可能出现的这些错误；
我们没有打算注释每个可能的目标，如果注释遗漏了一个目标，并且在前景中或在没有缩放的情况下肉眼可见，我们就注释它；
我们试图让边界框像像素一样完美；
我们还对部分（数据集类目标未注释部分）进行了注释，因为原始数据集具有它们的特性。
有了上述目标，我们首先检查了现有注释类标签的类审查运行，试图找出潜在的错误。超过 60% 的 AI CS 建议非常有用，因为它们有助于识别原始数据集不明显的问题。例如，注释器将沙发和椅子混淆。我们通过重新标记整个数据集的 500 多个标签来解决这个问题。
原始注释示例。图中有两张沙发和两把扶手椅。两把扶手椅中的一张标注为沙发，而另一把则标注为椅子。数据标注发生了一些错误，需要修复。修改后的标注，扶手椅是椅子，沙发是沙发。
在分析 OD 和 Class 审查时，我们发现 PASCAL 最突出的问题不是错误分类注释、奇怪的边界框或额外的标签。它最大的问题是缺少许多潜在的注释。我们很难估计确切的数字，但我们觉得有数千个未标记的目标应该被标记。
OD 审查通过数据集，寻找额外或缺失的标签和错误形状的边界框。并非所有缺失的注释都被 AI CS 突出显示，但我们已尽最大努力改进 AI CS 预测的至少有一个缺失标签的所有图片。结果，OD 审查帮助我们在 1.140 张图像中找到了 6.600 个缺失注释。
我们花了大约 80 个小时来审查所有建议并清理数据集，这是一个了不起的结果。
在原始 PASCAL 上训练自定义模型
如上所述，我们决定设置两组实验，训练两个模型，一个在初始的 PASCAL 上，另一个在经过清理的 PASCAL 版本上。为了进行神经网络训练，我们使用了 Hasty 另一个功能：Model Playground，这是一个无需编码的解决方案，允许你在简化的 UI 中构建 AI 模型，同时保持对架构和每个关键神经网络参数的控制。
在整个工作过程中，我们对模型进行了多次迭代，试图为任务找到最佳超参数。最后，我们选择了：
以 ResNet101 FPN 为骨干的更快的 R-CNN 架构；
采用 R101-FPN COCO 权值进行模型初始化；
模糊，水平翻转，随机剪切，旋转和颜色抖动作为增强；
AdamW 为求解器，ReduceLROnPlateau 为调度器；
就像在其他 OD 任务中一样，使用了损失组合（RPN Bounding Box 损失、RPN 分类损失、最终 Bounding Box 回归损失和最终分类损失）；
作为指标，我们有 COCO mAP，幸运的是，它直接在 Model Playground 中实现。
大约一天半的时间来训练。假设架构的深度、网络正在处理的图像数量、计划的训练迭代次数（10.000）以及 COCO mAP 在 5.000 张图片中每 50 次迭代计算的事实，它并没有花费太长时间。以下是模型取得的结果：原始模型训练迭代的平均损失。跨原始模型验证迭代的 COCO mAP 图。
使用这种架构实现的最终 COCO mAP 结果是验证时的 0.42 mAP。在原始 PASCAL 上训练的模型的性能不如最先进的架构。尽管如此，考虑到我们在构建模型上花费的时间和精力很少（经历了 3 次迭代，每次花费 1 小时），这仍然是一个不错的结果。无论如何，这样的结果会让我们的实验更有趣。让我们看看是否可以在不调整模型参数的情况下，通过改进数据来获得所需的指标值。
在更新的 PASCAL 上训练的自定义模型
在这里，我们采用相同的图像进行训练和验证，以训练以下模型作为基线。唯一的区别是拆分中的数据更好（添加了更多标签并修复了一些标签）。
不幸的是，原始数据集并没有在其训练 / 测试集拆分中包含 17120 个图像中的每一个，有些图片被遗漏了。因此尽管在原始数据集中添加了 6600 个标签，但在训练 / 测试拆分中，我们只得到了大约 3000 个新标签和大约 190 个修复标签。
尽管如此，我们继续使用 PASCAL VOC 2012 改进后的训练 / 测试拆分来训练和验证模型，看看效果如何。
更新模型的训练迭代中的 AverageLoss 图。
更新模型的验证迭代中的 COCO mAP 图。
直接比较
正如我们所见，新模型的性能优于原始模型。与之前模型的 0.42 值相比，它在验证时达到了 0.49 COCO mAP。这样看很明显实验是成功的。
结果在 45-55 COCO mAP 之内，这意味着更新后的模型比原始模型效果更好，并提供了所需的度量值。是时候得出一些结论并讨论我们刚刚目睹的情况了。
结论
本文展示了以数据为中心的 AI 开发概念。我们的思路是通过提升数据以获得更好的模型，进而也获得了想要的结果。如今，当模型开始接近性能的上限时，通过调整模型将关键指标的结果提高 1-2% 以上可能是具有挑战性且成本高昂的事。但是，你不应该忽略构建机器学习并不仅仅是模型和参数，还有两个关键组成部分——算法和数据。
在该研究中，我们并没有试图击败任何 SOTA 或获得比此前研究更好的结果。我们希望通过实验结果展示：花费时间改进数据有利于模型性能。希望通过添加 3000 个缺失标签使 COCO mAP 增加 13% 的案例足够令人信服。
通过清理数据和向图像添加更多标签可以获得的结果很难预测。效果很大程度上取决于你的任务、NN 参数和许多其他因素。即使在本文的例子中，我们也不能确定多 3000 个标签会是能带来额外 13% mAP 的。尽管如此，结果不言自明。虽然有时很难确定通过获得更好的数据来改进模型指标的上限，这是值得尝试的方向。

关键词：目标检测原始数据

上一篇：
下一篇：

精彩阅读

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%
热点
本文展示了以数据为中心的AI开发概念。

Meta首家线下实体店来了！免费体验“元宇宙”，还能对话研发大佬
热点
用户还可以感受Portal产品将会如何帮助老年人更好地使用视频通话功能，该设备甚至还能播放视频、当作便携式音箱等。

“背锅侠”的春天，AR Library5让运维So Easy
热点
不可否认的是，运维的价值正在变得愈发重要。

一统大数据江湖！趣话图说“存算分离”武学心法
热点
本文以图文趣说的形式带大家了解大数据这段历史。

三管齐下攻坚数据创新，中国系统为政企转型注入源动力
热点
数据创新最难之处在于：数据价值落地前人没有干过，也没有捷径可走，需要不断地摸索和实践。

数字藏品背后的灰产：炒NFT有人月赚10万，有人血亏百万
热点
相比于元宇宙众说纷纭的解读概念，NFT在玩法和定义上显得更加的简单。

昆仑万维年营收48.5亿元，海外市场收入占7成
热点
近日，昆仑万维发布了2021年年度报告。

视频号不肯掉队
热点
内容在哪里，用户就在哪里，视频号距离抖音还有很长的一段路要走。

深度剖析 | 《生化危机4》VR化的成功之路
热点
2021年，《生化危机4》VR版在虚拟现实游戏的领域掀起了一阵风暴。

Meta第一季度财报电话会议要点总结；Incuvo首席执行官看好PS VR2
热点
4月28日，Meta召开2022年第一季度财报电话会议，以下为天风证券整理的电话会议重点内容。

财富

web3.0：区块链的下一个风口
资讯
在低调传播一年多后，web 3 0点燃了VC的投资热情，也走进了普通创业者的视野。Web 3 0是指基于区块链技术的去中心化在线生态系统，许多人

家电企业“跨界”布局生物医疗：海尔、美的、长虹美菱、澳柯玛
资讯
生物医疗已经开始走进家电企业的视线，并逐渐成为其奋力开辟的蓝海新航线。海尔、美的、长虹美菱、澳柯玛等多家企业均已跨界布局生物医疗。

康泰生物：2022年一季度净利润同比增长86.01%
资讯
4月28日，资本邦了解到，A股公司康泰生物(300601 SZ)发布2022年一季度报告。2022年一季度，公司实现营业收入8 71亿元，同比增长214 6%;归母

皮阿诺2021年净利润-7.29亿元，同比减少470.05%
资讯
2022年4月27日晚间，广东皮阿诺科学艺术家居股份有限公司(以下简称皮阿诺)发布《2021年年度报告》显示，报告期内实现营业收入约为18 24亿元

中国中免市值蒸发超4000亿元，或因销售成本上升股价下行
资讯
2021年近百亿元的净利润是中国中免创下的史上最佳业绩，但公司股价自去年2月下旬起一路跌跌不休，至今股价腰斩，市值蒸发超过4000亿元。这

京东方2022年一季度营收同比增长近50%，持续稳居全球第一
资讯
4月27日，京东方科技集团股份有限公司(京东方A：000725;京东方B：200725)发布2022年第一季度报告，公司实现营业收入504 76亿元，实现归属于

特斯拉重挫12.18% 市值蒸发8245亿元
资讯
截至当地时间4月26日收盘，美股三大指数集体收跌。道指下跌809 28点，跌幅2 38%;标普500指数下跌120 92点，跌幅2 81%;纳指下跌514 110点，

2021年全球半导体收入排名公布全球半导体收入同比增长26.3%
资讯
Gartner公司的最终统计结果，2021年全球半导体收入同比增长26 3%，总计5950亿美元。三星电子自2018年以来首次超越英特尔重回第一，尽管领先

半导体调研机构：显卡价格暴跌原因是产能转变
资讯
最近两个月来显卡价格暴跌，AMD的RX 6000及NVIDIA的RTX 30系列之前因为挖矿大热，价格翻倍上涨，如今正在迅速跌破发行价，预计会在618期

国盾量子2021年营收1.79亿元，研发投入占比50.81%
资讯
量子科技第一股国盾量子4月26日发布2021年年度报告。公司全年营业收入1 79亿元，同比上升33 55%;净利润同比减少225 93%，为净亏损3713 62万

MORE+ 资讯

web3.0：区块链的下一个风口

家电企业“跨界”布局生物医疗：海尔、美的、长虹美菱、澳柯玛

康泰生物：2022年一季度净利润同比增长86.01%

皮阿诺2021年净利润-7.29亿元，同比减少470.05%

中国中免市值蒸发超4000亿元，或因销售成本上升股价下行

京东方2022年一季度营收同比增长近50%，持续稳居全球第一

特斯拉重挫12.18% 市值蒸发8245亿元

2021年全球半导体收入排名公布全球半导体收入同比增长26.3%

半导体调研机构：显卡价格暴跌原因是产能转变

国盾量子2021年营收1.79亿元，研发投入占比50.81%

MORE+ 热点

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

Meta首家线下实体店来了！免费体验“元宇宙”，还能对话研发大佬

用户还可以感受Portal产品将会如何帮助老年人更好地使用视频通话功能，该设备甚至还能播放视频、当作便携式音箱等。

“背锅侠”的春天，AR Library5让运维So Easy

不可否认的是，运维的价值正在变得愈发重要。

一统大数据江湖！趣话图说“存算分离”武学心法

本文以图文趣说的形式带大家了解大数据这段历史。

三管齐下攻坚数据创新，中国系统为政企转型注入源动力

数据创新最难之处在于：数据价值落地前人没有干过，也没有捷径可走，需要不断地摸索和实践。

数字藏品背后的灰产：炒NFT有人月赚10万，有人血亏百万

相比于元宇宙众说纷纭的解读概念，NFT在玩法和定义上显得更加的简单。

MORE+ 焦点

龙芯中科胡伟武：自主又兼容夯实信息产业“三箭齐发”

龙芯中科董事长胡伟武在线上发表了关于LoongArch生态建设的演讲。胡伟武表示，指令系统是自主信息产业绕不过去的话题，我国不可能基于国外

锐龙55600G评测：台积电7nm工艺，6核心12线程

自从AMD推出Zen3架构的锐龙5000系列处理器后，在市面上大杀四方，不论是单核性能、多核性能还是游戏性能都远胜于Intel10代和11代酷睿，甚至

欧菲光：公司8P镜头项目已研发成功，目前处于试产阶段

曾经为苹果提供镜头模组的欧菲光今日在互动平台表示，公司团队历经多年技术攻坚，突破高端镜头技术壁垒，一亿像素7P光学镜头已量产，长焦镜

支付宝：处置69375个违规账号和参与“跑分”的账号

4月19日下午，支付宝安全中心官方发布了关于持续打击电信网络诈骗、租售账号等违规行为的公告。为保障用户账户安全，营造清澈、安全的

华润啤酒频现“超标排放”环保问题遭罚款

4月18日，北京商报记者在聊城市生态环境局注意到，华润雪花啤酒(聊城)有限公司(以下简称雪花聊城公司)因涉嫌超标排污被聊城市生态环境局罚

Eurocom推出15.6英寸笔记本电脑工作站

Eurocom 正推出 15 6 英寸的 Raptor X15 Mobile Supercomputer，该工作站采用 LGA1700 插槽的英特尔第 12 代桌面处理器。通过最

MORE+ 智能

智能手机“钉子户”蔓延至年轻一代：需求放缓已是不争事实

苹果回应取消随附充电器：已节省55万吨铜锡锌矿石

苹果发布的iPhoneSE3销量低于公司预期

苹果35W充电头曝光，或并非iPhone14系列天花板

耶路撒冷希伯来大学和巴伊兰大学就量子技术进行研究合作

小菲电子推出双USB-C快充充电器

前华为产品经理，搭上“米链”快车，素士科技冲刺电动牙刷第一股

统信桌面操作系统V20专业版正式发布新增一系列全新特性

铠侠宣布为第二代PCIe5.0SSD提供样品

一半盖泡面，一半挂闲鱼！电子纸平板或成最具潜力电子纸终端

精彩推送

云上搬家，爱回收是怎么准备的？

深度剖析 | 《生化危机4》VR化的成功之路

百度：入选AI华人青年学者榜单的学者，最小的竟然是95后？

百度卢飞翔：“AI教练”助力国家跳水队争金夺银

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

视频号不肯掉队

web3.0：区块链的下一个风口

Meta第一季度财报电话会议要点总结；Incuvo首席执行官看好PS VR2

Gartner：AI和自动化将是新一代SASE的关键能力

“背锅侠”的春天，AR Library5让运维So Easy

三管齐下攻坚数据创新，中国系统为政企转型注入源动力

Meta首家线下实体店来了！免费体验“元宇宙”，还能对话研发大佬

昆仑万维年营收48.5亿元，海外市场收入占7成

一统大数据江湖！趣话图说“存算分离”武学心法

数字藏品背后的灰产：炒NFT有人月赚10万，有人血亏百万

营收不及预期，算错3年用户数据，Twitter不值得？

华帝股份：2021年净利润2.07亿元同比减少49.17%

家电企业“跨界”布局生物医疗：海尔、美的、长虹美菱、澳柯玛

新乳业2021年营收利润靓丽双增，2022年一季度扣非净利增长67%实现开门红

康泰生物：2022年一季度净利润同比增长86.01%

小商品城拟投资建设义乌国际数字物流市场一期工程

苏农银行2021年净利润11.60亿元，同比增长21.96%

皮阿诺2021年净利润-7.29亿元，同比减少470.05%

小众品牌进商场传统商圈拓新网红品牌成新品牌

中国中免市值蒸发超4000亿元，或因销售成本上升股价下行

京东方2022年一季度营收同比增长近50%，持续稳居全球第一

奥佳华发布2021年度报告，董事长、总经理邹剑寒薪酬111万

总投资超750亿元！全球最大LTPS单体工厂封顶

特斯拉重挫12.18% 市值蒸发8245亿元

14nm之后，台积电的2nm工艺将在2024年开始量产

2021年全球半导体收入排名公布全球半导体收入同比增长26.3%

Win11对搜索界面进行大规模改动后续将进一步优化

新一轮“涨价潮”来了！空调原材料价格上涨超80%

中国企业驶出“内流河”，提升全球竞争力

罗永浩关联公司新增1条恢复执行信息曾被限制消费

爆料：骁龙8Gen1Plus性能将提升10%左右

半导体调研机构：显卡价格暴跌原因是产能转变

国盾量子2021年营收1.79亿元，研发投入占比50.81%

省委书记调研“东数西算”，来到联通核心云基地！

字节跳动不想等了

台积电连续多年成为苹果自研芯片第一大客户

【学习党】205页PPT！关于“元宇宙”，你想知道的权威答案都在这里……

酷！教你用“眼神儿”玩手机

京东云正式发布城市产业服务平台和三大产业解决方案

下一代互联网Web3.0，如何搅动中国市场？

慕了慕了！这里的女职工服务站，有一个温馨名字：康乃馨！

Meta宣布开设直营零售店；Nreal将在英国推出AR眼镜

影目科技消费级AR眼镜INMO Air正式量产交付

陌生人社交：要么出众，要么出局

智能云业务维持高增长微软交出强于市场预期的一季报

华尔街投资人集体诉讼案新动作:将马云列为起诉对象到底是什么回事？？？

微博没有马斯克式的“救世主”

高举“高投入”大旗，三六零想要讲一个“转型”新故事

刘畊宏爆红，促使“周杰伦概念股”再次冲击IPO

OpenAI大佬：我是如何拿到190万美元年薪的?

区块链军事化应用研究进展

可喜可贺，国产操作系统厂商年收入超十亿元！

中国移动推动六大服务举措升级全力做优“心级服务”

大厂嫡系文化，养肥了谁？

微软押宝的Loop还没落地，钉钉先做到了

全球最大同性交友网站，操作一个比一个骚

社会太冷，闲人在闲鱼兜售自己

定了！马斯克440亿美元大手笔收购，特朗普拒绝重返推特

做合格的工业数据分析师

不再按月披露用户净增数，联通困境的根源在于3G时代错失良机

中国移动一季度业绩亮眼

对网络暴力说“不”，需强化三个方面的主体责任

马斯克440亿美元收购推特

迈入强AI时代，科大讯飞如何找到价值支点？

调查显示：整合被认为是物联网部署的最大挑战之一

时隔半年迎来女CFO高准，字节跳动再为上市作准备？

淘丁分享：人工智能与人类智能的区别与趋势

马斯克440亿美元买下推特：上限是火星球主、下限是美国总统？

一个惊天 bug，2.2 亿没了！

营销下一站，去品牌元宇宙

分析 OpenSea 收购 NFT 聚合器 GEM：一次垄断者“铲除威胁”的行动

【新闻资讯】互联网发展给我们带来了哪些致富机遇?

奇点云入选《2022爱分析·工业互联网厂商全景报告》工业数据智能平台代表厂商

深度分析B站百大up主数据：高更替率背后，知识、游戏、美食越来越卷了……

元宇宙的庞大市场预期将促进生成式AI快速发展

超市行业正在“突破”亏损

「奥特莱斯」里的学问，绝非「折扣」这么简单

达美乐距离港股上市，缺了一个美团？

做生鲜电商难，在哪里都难

一年买533吨黄金，这届年轻人变身“囤金兽”

从周受资到高准：字节跳动如何筛选CFO？

融资丨「卧兔网络」完成数千万元A轮融资，君品资本、云想科技投资

疫情下的电商大考

融资丨「如祺出行」完成超10亿元A轮融资，广汽集团领投

融资丨「花田萃」完成数百万美元融资，青山资本独家投资

海外创投丨数字货运网络提供商「Convoy」完成2.6亿美元E轮融资，Baillie Gifford、T. Rowe Price共同领投

融资丨「风变科技」完成数千万元B+轮融资，中银粤财独家投资

融资丨「Wahool」完成近千万美金两轮融资，投资方为金沙江创投和策源创投

融资丨「蓝固新能源」完成近2亿元A轮融资，海松资本领投

马斯克背后的神秘家族办公室

除了快手与抖音，“云想科技们”也在加速“出圈”

融资丨「可以科技」完成新一轮融资，安克创新领投

融资丨「明智医疗」完成数千万元A轮融资，打造肿瘤真实世界大数据平台

融资丨「瑞泰生物」完成数千万A轮融资，惠每资本领投

奇安信发布2021年财报及2022年一季财报

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

【导读】 干净的数据对于你的 AI 模型的表现有多重要？

【导读】干净的数据对于你的 AI 模型的表现有多重要？