当前看点!GitHub 编程神器 Copilot被斥「盗版」大量开源代码,面临90亿美元集体诉讼

2022-12-01 16:13:20   来源:商业新知网

大数据文摘作品


【资料图】

作者:Mickey

自诞生之日起就饱受争议的微软代码工具Copilot近期又遭遇了新的问题。

一名程序员就该工具正式起诉了微软、GitHub 和 OpenAI,寻求对微软和其他设计部署 Copilot 的公司进行集体诉讼,并要求赔偿。目前诉讼已经提交到了美国加州北区地方法院,要求批准 9,000,000,000 美元的法定赔偿金。

让程序员们早下班的AI工具

Copilot到底何方神器?

今年6 月下旬,微软发布了一种可以自动生成计算机代码的新型人工智能技术。

该工具名为 Copilot,旨在让专业程序员更快地工作。当他们工作时,Copilot会给出代码建议,程序员可以直接将copilot展示的建议的代码块直接添加到自己的代码中,快速完成工作,这一工具也因此被很多媒体誉为“让程序员早下班的工具”。

据 Copilot 网站称,Copilot基于Codex 模型产生,其由“互联网上的公共代码和文本”训练,“既能理解编程,也能理解人类语言”。作为 Visual Studio Code 的扩展,Copilot “将你的评论和代码发送到 GitHub Copilot 服务,然后它会使用 OpenAI Codex 来合成并建议个别行和整个函数”。

许多程序员喜欢这个新工具,有开发者表示:“使用 Copilot,我能尽量少把精力浪费在枯燥重复的工作身上。它点燃的灵感火花,让我感到编码过程更有趣、更高效了。”但也有不少人不买账,洛杉矶的程序员、设计师、作家和律师Matthew Butterick就是其中之一。本月,他和其他律师团队提起诉讼,寻求对微软和其他设计和部署 Copilot 的知名公司的集体诉讼地位。

前程序员律师发起集体诉讼: 与盗版无异

与许多尖端人工智能技术一样,Copilot 通过分析大量数据来发展其技能 。在这种情况下,它依赖于 发布到互联网上的数十亿行计算机代码 。52 岁的 Butterick认为此过程等同于盗版,因为该系统不会展示任何版权来源。他的诉讼声称微软及其合作者侵犯了数百万、花费数年时间敲下原始代码的程序员的合法权利。

这起诉讼被认为是对称为“AI训练”类技术的首次法律诉讼。通过大量公开数据进行训练,让ai学习并生成自己的产物,这是一种 构建人工智能 的方式,有望重塑科技行业。这些所谓产物包括画作、文字、和代码。近年来,许多艺术家、作家、专家和隐私活动家抱怨说,公司正在使用不属于他们的数据来训练他们的人工智能系统。

程序员兼律师马修·巴特里克 (Matthew Butterick) 表示,他担心自己所做的工作在新的人工智能系统中被不当使用。

在过去几十年的技术发展中,这一诉讼并不是首例。在 1990 年代和 2000 年代,微软与开源软件的兴起作斗争,将其视为对公司业务未来的生存威胁。随着开源的重要性与日俱增,微软欣然接受它,后来还收购了开源程序员的家园——GitHub。

几乎每一代新技术,甚至是在线搜索引擎,都面临着类似的法律挑战。通常,“没有任何成文法或判例法对其有效,”专门研究这一法律领域的知识产权律师Bradley J. Hulbert说。

这起诉讼是人工智能发展途中的重要里程碑。艺术家、作家、作曲家和其他创意类型越来越担心公司和研究人员在未经他们同意且不提供报酬的情况下使用他们的作品来创造新技术。公司以这种方式训练各种各样的系统,包括 艺术生成器、 Siri 和 Alexa 等语音识别系统,甚至无人驾驶汽车。

Copilot 基于由 OpenAI 构建的技术,在微软和 GitHub 发布 Copilot 后,GitHub 的首席执行官 Nat Friedman 在 推特 上表示,根据版权法,使用现有代码来训练系统是对材料的“合理使用”,构建这些系统的公司和研究人员经常使用这一论点。但目前还没有法庭案件检验过这一论点。

“微软和 OpenAI 的野心远远超出了 GitHub 和 Copilot,”Butterick在接受采访时说。“他们想在任何地方免费训练任何数据,无需同意,永远。”

从GPT-3到Copilot,AI用开源数据训练是否合法?

2020 年,OpenAI 推出了一个名为 GPT-3 的系统 。研究人员使用大量数字文本对系统进行训练,其中包括数千本书籍、维基百科文章、聊天记录和其他发布到互联网上的数据。

通过精确定位所有文本中的模式,该系统学会了预测序列中的下一个单词。当有人在这个“大型语言模型”中输入几个单词时,它可以用整段文本来完成这个想法。通过这种方式,系统可以编写自己的 Twitter 帖子、演讲、诗歌和新闻文章。

令构建该系统的研究人员大吃一惊的是,它甚至可以编写计算机程序,显然是从互联网上发布的无数程序中学到的。

因此,OpenAI 更进一步,在专门存储代码的新数据集合上训练新系统 Codex 。 该实验室后来在一份详细介绍该技术的研究论文 中表示,至少部分代码来自 GitHub。

这个新系统成为 Copilot 的底层技术,微软通过 GitHub 分发给程序员。在与相对较少的程序员进行了大约一年的测试后,Copilot 于 7 月在 GitHub 上向所有程序员推出。

目前,Copilot 生成的代码很简单,可能对更大的项目有用,但必须进行修改、扩充和审查,许多使用过该技术的程序员表示。有些程序员发现它只有在学习编码或试图掌握一门新语言时才有用。

尽管如此,Butterick还是担心 Copilot 最终会摧毁全球程序员社区。系统发布几天后,他发表了一篇博文,标题为:“ 这个Copilot很蠢,它想杀了我 ”。

Butterick 先生自称为开源程序员,是与世界公开分享代码的程序员社区的一员。在过去的 30 年里,开源软件帮助推动了消费者每天使用的大多数技术的兴起,包括网络浏览器、智能手机和移动应用程序。

尽管开源软件旨在在编码人员和公司之间自由共享,但这种共享受许可证约束,旨在确保它的使用方式使更广泛的程序员社区受益。Butterick 先生认为,Copilot 违反了这些许可证,并且随着它的不断改进,将使开源编码器变得过时。

在公开吐槽这个问题几个月后,他向其他几位律师提起诉讼。该诉讼仍处于早期阶段,尚未被法院授予集体诉讼地位。

令许多法律专家感到意外的是,Butterick的诉讼并未指控微软、GitHub 和 OpenAI 侵犯版权。他的诉讼采取了不同的策略,认为这些公司违反了 GitHub 的服务条款和隐私政策,同时也违反了要求公司在使用材料时 显示版权信息的联邦法律。

Butterick和诉讼背后的另一位律师乔·萨维里 (Joe Saveri) 表示,诉讼最终可能会解决版权问题。

当被问及公司是否可以讨论这起诉讼时,GitHub 发言人拒绝了采访,然后在一封电子邮件声明中表示,该公司“从一开始就致力于通过 Copilot 进行负责任的创新,并将继续改进产品,为全球开发人员提供最好的服务”微软和 OpenAI 拒绝就诉讼发表评论。

大多数专家认为,根据现行法律,在受版权保护的材料上训练人工智能系统不一定违法。但这样做可能是因为系统最终创建的材料与它所训练的数据基本相似。

Copilot 的一些用户 表示 ,它生成的代码似乎与现有程序相同(或几乎相同),这一观察结果可能成为 Butterick 先生和其他人案例的核心部分。

加州大学伯克利分校教授帕姆·萨缪尔森专门研究知识产权及其在现代技术中的作用,他说法律思想家和监管机构在技术出现之前的 80 年代简要探讨了这些法律问题。她说,现在需要进行法律评估。

“这不再是玩具问题,”萨缪尔森博士说。

Butterick还创建了一个网站,跟进诉讼情况,也呼吁更多人的支持,在网站文章中他强调:“我们反对的绝不是 AI 辅助编程工具,而是微软在 Copilot 当中的种种具体行径。微软完全可以把 Copilot 做得更开发者友好——比如邀请大家自愿参加,或者由编程人员有偿对训练语料库做出贡献。但截至目前,口口声声自称热爱开源的微软根本没做过这方面的尝试。另外,如果大家觉得 Copilot 效果挺好,那主要也是因为底层开源训练数据的质量过硬。Copilot 其实是在从开源项目那边吞噬能量,而一旦开源活力枯竭,Copilot 也将失去发展的依凭。”

关键词: 集体诉讼 研究人员

上一篇:
下一篇:
精彩阅读

当前看点!GitHub 编程神器 Copilot被斥「盗版」大量开源代码,面临90亿美元集体诉讼

热点

自诞生之日起就饱受争议的微软代码工具Copilot近期又遭遇了新的问题。

当前动态:居家办公竟被读取脑电波?老板们为远程监控想出奇招

热点

朋友居家办公期间,他们老板为了远程监控工作,要求大家必须装上专门的软件和摄像头。

每日热议!股东集体减持、现金流承压,DaaS第一股凌雄科技急速失血

热点

处于行业头部的凌雄科技,在DaaS市场的龙头地位得到巩固。

快报:GrowingIO分析云产品矩阵重磅发布|StartDT Day回顾

热点

面对变局,以往各大企业还有不少试错成本,但疫情的持续,让他们不得不放弃粗放式增长转而寻求精细化运营。

AI绘画爆火 是赚钱的新项目还是创业的新行当

热点

目前,一个AI绘画的应用似乎火了起来。

运营商布局云计算业务,进展如何?

热点

2022年以来,随着国家“东数西算”战略工程正式启动,“算力”成为全社会高度关注的热词。

头条:江泽民:新时期我国信息技术产业的发展

热点

我们应该清醒地认识到,核心技术是买不到的,必须靠我们自己,只是一代又一代的引进新的生产能力是赶不上世界先进水平的。

热讯:争议:GMX 的 Keeper 机制是否会引发内部作恶?

热点

除了外部攻击外,GMX还存在潜在的内部攻击风险。

每日速看!中国移动董昕:提前布局 卡位新的产业层级和关键枢纽

热点

中国移动提前布局核心领域和关键环节,卡位新的产业层级和关键枢纽。

财富

今头条!融资丨「忱芯科技」完成A轮亿元级融资,武岳峰半导体产业基金独家领投

资讯

融资丨「忱芯科技」完成A轮亿元级融资,武岳峰半导体产业基金独家领投,本轮融资资金将主要用于忱芯科技研发和量产国内独家碳化硅半导体测试设

视点!疯狂的世界杯赌球生意

资讯

疯狂的世界杯赌球生意,当开始下注时,你就已经输了。

今日热文:投资机构卖老股,FA费用该谁付?——100家机构调研数据

资讯

投资机构卖老股,FA费用该谁付?——100家机构调研数据,差不多2 3的调查对象认为应该由基金付FA费用

【全球独家】日售近300万,他们再造一个“冰墩墩”?

资讯

日售近300万,他们再造一个“冰墩墩”?,火遍全球的顶流IP

即时看!千万网友试图驯服的AI绘画,背后谁在赚钱?

资讯

千万网友试图驯服的AI绘画,背后谁在赚钱?,把肌肉男画成哈士奇,AI你没事吧?

华擎z68主板bios怎么设置?华擎主板bios灯亮红灯是什么?

资讯

Windows 11 硬件要求指出,如果你想升级,你需要一个 TPM,这引起了争议,因为旧设备似乎不符合升级条件。此功能有其好处,它可以保护您

支付宝用不了了怎么解绑银行卡?支付宝突然打电话核实支付宝账户?

资讯

手机支付宝能解绑银行卡吗不管是支付宝还是其他手机支付应用,都可以解绑银行卡的。手机支付宝怎么删除绑定的银行卡1、首先打开支付宝app,

手机没有网络信号怎么办?苹果手机有信号无网络怎么办?

资讯

手机没问题但上网有问题,这是为哪般?国庆小长假,有人选择出去游玩,有人选择在家躺平。不管是出去还是宅家,绕不开的一个话题就是要保证

平板电脑二合一评测是什么?二合一平板笔记本电脑推荐有哪些?

资讯

二合一笔记本算得上是近期市场上的新兴产品了,最初由微软提出这一概念,并推出了Surface,号称笔记本未来的形态。在Surface发布了这么久之

咖啡机第一次使用注意事项是什么?手压咖啡机和半自动咖啡机是什么?

资讯

咖啡可以说是当下最为流行的饮品之一了,在日常中,喝一杯咖啡不仅有提神、放松的效果,还可以缓解工作生活压力。但是咖啡机的使用率不像烤

当前动态:居家办公竟被读取脑电波?老板们为远程监控想出奇招

朋友居家办公期间,他们老板为了远程监控工作,要求大家必须装上专门的软件和摄像头。

每日热议!股东集体减持、现金流承压,DaaS第一股凌雄科技急速失血

处于行业头部的凌雄科技,在DaaS市场的龙头地位得到巩固。

快报:GrowingIO分析云产品矩阵重磅发布|StartDT Day回顾

面对变局,以往各大企业还有不少试错成本,但疫情的持续,让他们不得不放弃粗放式增长转而寻求精细化运营。

AI绘画爆火 是赚钱的新项目还是创业的新行当

目前,一个AI绘画的应用似乎火了起来。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个