首页> 热点 >

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

2023-08-15 11:18:22 来源：商业新知网

人类数据缺缺缺，AI被迫开始吃AI生产的数据了！

(资料图)

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据，然后现在……这些数据快被用完了。

BUT，要训练更好的大模型，多少数据都不够。

据《金融时报》介绍，不少公司正把大模型生成的结果、也就是所谓的合成数据（Synthetic data），喂给参数量更小的大模型吃，发现效果还不错。

对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为：

合成数据可能加速通往“超级智能”AI系统的道路。

所以，究竟哪些大模型已经在用合成数据了，这些合成数据又是从何而来？

大AI合成数据，小AI吃

这些所谓的合成数据，本质上是用当前表现较好的大模型生成的数据，经过人工调整后，再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话，并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”，正在进行一堂虚拟的数学教学。同时，Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误，人类员工就会插手对文本进行修正。

尽管确实还需要人力，但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么，什么样的大模型会用到这些合成数据呢？

微软研究院最近有研究表明，合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例，这个数据集被证明虽然只包含4岁小孩能理解的单词，但用于训练一个大模型之后，同样可以生成语法正确、阅读体验流畅的故事：

对于使用合成数据的理由，Cohere的CEO Aidan Gomez认为：

能从网上获取数据当然更好，但网络数据太杂乱了，完全无法满足需求。相比之下，合成数据已经非常多了，即使它还没被广泛传播。

背后产业链已出现

目前，包括Scale AI、Gretel.ai等企业，已经开始给外界提供合成数据服务。

先是Scale AI，旗下就推出了一款合成数据产品Scale Synthetic，用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中，还提到GPT-4的数据集中，有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai，从官网来看，它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作，以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为，合成数据的好处在于，它保留了数据集中所有个人的隐私，同时仍然保持其统计学意义上的完整性（statistical integrity）。

但并非所有人都接受合成数据这种“神奇操作”，目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内，有不少搞大模型的企业仍然坚持这一做法，并认为它可能生成更好的AI，甚至从中诞生出“超级智能”。

另一部分则认为，合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明：

使用合成数据训练，会让模型出现不可逆转的缺陷：
忘记那些“不可能发生的事件”，最终被自己生成的数据毒害。

有网友认为，这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃，这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗？

关键词：

上一篇： 安道麦选择ZStack Cube超融合一体机进行虚拟化纳管升级
下一篇： 最后一页

精彩阅读

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

热点

人类数据缺缺缺，AI被迫开始吃AI生产的数据了。

安道麦选择ZStack Cube超融合一体机进行虚拟化纳管升级

热点

数字经济正加速推动各行各业的高质量升级发展，云计算是数字经济

#阿里在深圳成立文化科技公司# 含人工智能业务

热点

近日，深圳娱驰文化科技有限公司成立，法定代表人为肖兵，注册资本1000

浅谈国内SaaS企业的核心挑战

热点

近期，关于中国SaaS软件发展困境的讨论成为业内热点。

30天揽金5千万，AI数字人能成为普通人的「财富密码」？

热点

最近「妙鸭相机」（以下简称妙鸭）站在AI的风口被吹得很高，甚至带动二

经纬张颖：AI的远与近

热点

AI可以被定义为是变革性的风口。

重磅！2023科脉云帆OS平台发布会定档8月18日

热点

自诞生起，科脉云帆OS平台就为零售行业数字化发展带来巨大的惊喜。

“百模大战”愈演愈烈，属于阿里云的增量机会来了

热点

AI驱动阿里云重回增长。

ISC 2023：数字政务安全体系为数字政府建设注入新动能

热点

近日，由360数字安全集团、《信息安全研究》杂志社主办的ISC2023数字政

藏不住了，原来它才是中国SaaS届扛把子

热点

中国SaaS届的扛把子被“微量观察”扒出来了。

财富

1家只有1个人的公司，年赚1个亿！

资讯

1家只有1个人的公司，年赚1个亿！,“盖哥”和他的公司能给创业者哪些启

OpenAI向美国专利局提交“GPT-5”商标申请

资讯

OpenAI向美国专利局提交“GPT-5”商标申请,7月31日，美国商标律师JoshG

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产

资讯

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产,8月1日消息，澳

部分新款iPhone或推迟至10月以后发售

资讯

部分新款iPhone或推迟至10月以后发售,由于OLED屏的量产推迟，部分新机

恒大地产：所有存续公司债将继续停牌

资讯

恒大地产：所有存续公司债将继续停牌,恒大地产发布公告称，为保证公平

马斯克将领导X平台的产品及工程师团队

资讯

马斯克将领导X平台的产品及工程师团队,社交媒体平台X（前身为推特）表

多个AIGC应用在苹果应用商店下架

资讯

多个AIGC应用在苹果应用商店下架,包括讯飞星火在内的多个AIGC相关App，

上汽集团：7月份上汽销售新能源汽车9.1万辆

资讯

上汽集团：7月份上汽销售新能源汽车9 1万辆,据上汽集团官微，据初步统

京东回复收购永辉传闻：目前没有这个意向

资讯

京东回复收购永辉传闻：目前没有这个意向,针对“京东洽谈收购永辉”的

上半年A股37%新增上市企业为小巨人，江苏小巨人总量反超浙粤鲁，北京单个企业最高支持3000万丨专精特新资本市场半年报

资讯

上半年A股37%新增上市企业为小巨人，江苏小巨人总量反超浙粤鲁，北京单

MORE+ 资讯

MORE+ 热点

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

安道麦选择ZStack Cube超融合一体机进行虚拟化纳管升级

数字经济正加速推动各行各业的高质量升级发展，云计算是数字经济

#阿里在深圳成立文化科技公司# 含人工智能业务

近日，深圳娱驰文化科技有限公司成立，法定代表人为肖兵，注册资本1000

浅谈国内SaaS企业的核心挑战

近期，关于中国SaaS软件发展困境的讨论成为业内热点。

30天揽金5千万，AI数字人能成为普通人的「财富密码」？

最近「妙鸭相机」（以下简称妙鸭）站在AI的风口被吹得很高，甚至带动二

经纬张颖：AI的远与近

AI可以被定义为是变革性的风口。

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

大AI合成数据，小AI吃

背后产业链已出现

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

安道麦选择ZStack Cube超融合一体机进行虚拟化纳管升级

#阿里在深圳成立文化科技公司# 含人工智能业务

浅谈国内SaaS企业的核心挑战

30天揽金5千万，AI数字人能成为普通人的「财富密码」？

经纬张颖：AI的远与近

重磅！2023科脉云帆OS平台发布会定档8月18日

“百模大战”愈演愈烈，属于阿里云的增量机会来了

ISC 2023：数字政务安全体系为数字政府建设注入新动能

藏不住了，原来它才是中国SaaS届扛把子

1家只有1个人的公司，年赚1个亿！

OpenAI向美国专利局提交“GPT-5”商标申请

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产

部分新款iPhone或推迟至10月以后发售

恒大地产：所有存续公司债将继续停牌

马斯克将领导X平台的产品及工程师团队

多个AIGC应用在苹果应用商店下架

上汽集团：7月份上汽销售新能源汽车9.1万辆

京东回复收购永辉传闻：目前没有这个意向

上半年A股37%新增上市企业为小巨人，江苏小巨人总量反超浙粤鲁，北京单个企业最高支持3000万丨专精特新资本市场半年报

MORE+ 资讯

MORE+ 热点

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

安道麦选择ZStack Cube超融合一体机进行虚拟化纳管升级

#阿里在深圳成立文化科技公司# 含人工智能业务

浅谈国内SaaS企业的核心挑战

30天揽金5千万，AI数字人能成为普通人的「财富密码」？

经纬张颖：AI的远与近

MORE+ 焦点

历史性一刻！中国首次超过美国，成为iPhone出货量最大单一市场【附全球智能手机市场分析】

秋水仙碱痛风的你吃对了吗？

湖北省宜昌市兴山县突发山体岩石崩塌致7人死亡

兰州市中考第二次网上征集志愿15日22时开始

长相思第一季大结局基本情况讲解

8月14日基金净值：鹏华酒A最新净值0.496，跌1.2%

MORE+ 智能

精彩推送