2022-12-20 09:52:03 来源:商业新知网
一盘超脱于游戏行业的大棋。 |
2022年,可以说是当之无愧的AIGC元年——AI绘图和ChatGPT的发展,让大量圈外人用上了以前想都不敢想的技术。这些技术在国内甚至已经有了相当“亲民”的应用,比如有短视频、美图软件就将AI绘画作为滤镜、特效功能推向用户,吸引了不少流量。
(资料图)
这些应用层的创新当然不是什么坏事,但葡萄君总觉得有点遗憾。因为在国外公司疯卷AIGC、三天两头就蹦出一个新突破的同时,国内好像缺少一个能在底层研究上扛起大旗,和它们掰掰手腕的公司站出来。
不过前几天我立马就被打脸了——12月15日,上市游戏公司昆仑万维召开了一场AIGC技术发布会,一口气发布了与图像、音乐、文本、编程有关的一系列AI算法与模型,并宣布 模型将会全部开源 (开源地址见文末附录) ,这在AIGC领域可不算一件小事。
这样的发布会,很难不让人好奇——他们的模型到底有没有真功夫?如果有,凭什么是他们率先有了突破?而且他人求之不得的模型,为什么他们还要全部开源?最近,葡萄君和昆仑万维CEO方汉聊了聊,发现他们并非一时兴起赶AIGC的热度,而是自两年前就开始投入实际研发,并且在某些方面已经悄悄做到了全球顶尖的水平。
01
一口气发布的四款模型,
到底有多强?
如果只是发布单款AI模型,或许昆仑万维还不至于让人这么好奇,毕竟国内研究AI的公司不少,总有人的赛道会与新兴技术重合。但这次发布会他们却是一网打尽,几乎包揽了AIGC的主流领域,达成了在国内还少有人做到的“全家桶”成就,而且从使用体验上来看,几款模型的水平还普遍不低。
首先是AI图像方面,他们的天工巧绘SkyPaint能支持中英双语输入内容,即使我用中英混杂的文本来生成图像,它也能较好地理解我的意思,并在十几秒内准确输出:
另外,我发现这款模型对风格的理解能力也不错。比如输入“大象 剪纸叠加风格”,它就能生成好几种不同样式的剪纸大象,精细度也不低。虽然目前效果还比不上最顶尖的AI图像模型,但它的底子很好——用的是Stable Diffusion的底层模型。也就是说只要训练到位,将来的效果并不会差。而且据说研发团队还会在此后,逐步加入图像编辑、图像修复等更细致的功能。
左划可查看其他作品
其次在AI音乐方面,他们的天工乐府SkyMusic是国内第一款商用级作曲AI模型,这也让昆仑万维成了国内唯一一家,被传统音乐版权代理机构接收商用AI音乐的公司。结合人类歌手的演唱,他们已经发布了近20首歌曲。说实话,如果不是提前知道,葡萄君根本分辨不出这是不是由AI作曲的音乐。
而在AI文本方面,他们的天工妙笔SkyText的表现也有点超出我预期。大家都知道中文文本的AIGC很难做,但这款模型显然对中文有一些独到的理解,甚至在某些特殊场景比ChatGPT还强。比如我选择“创建采访问题”类别并随口胡诌了一个要求,结果它竟然真的懂了,而且问题都挺有意思。
当然,它也能做到许多别的要求,比如聊天、问答、翻译、续写内容、创建食谱、写诗和对联……而且生成的参数是可调整的,比如你可以为内容设置敏感词,也可以限定它写八百字的小作文。
最后在AI编程方面,他们的天工智码SkyCode能作为插件安装在编辑器中,并又快又好地补全、生成多种主流编程语言的代码。方汉表示,这款模型目前是开源领域最好的辅助编程工具,能在工作中降低20%-30%的代码工作量。
估计不少人要纳闷:为什么昆仑万维之前看起来没什么声音,但突然就来了波大的,而且效果看上去都不错?据葡萄君了解,其实他们入局AIGC始于2020年底。当时AIGC的概念尚不明确,但在看到GPT-3这款语言模型后,技术出身的高管层随即决定建立团队研发相关技术。李开复曾经提过一个“五秒钟准则”:未来10年,人类只需思考5秒以内的工作大部分都会被AI取代——方汉表示,GPT-3让他们觉得,这个时间可能要变成5小时了,因为大语言模型将会深刻地改变内容生成行业。
这AI不投则已,一投就是大几千万的花销。首先是训练成本:他们采用了目前市面上算力最高的显卡集群A100 80G,对图像模型训练时间超过9万个显卡时、写作模型参数达到140亿,再加上时不时要租用的云服务,每年至少就要花一两千万;其次是人力成本,他们的AIGC团队目前有200余人,每月也需要六七百万维持开支。
而且抛开成本不谈,找人在当年也是一件难事。因为在GPT-3刚出世之时,国内基本还没有研究大语言模型的团队,想要组建团队只能靠从头培养。2021年他们开始研究AI音乐时也是一样——方汉提到,全中国毕业的音频专业硕士,每年可能还找不出200个。他们要走的路就是这么窄。
但恰恰是两年前的选择,给他们打下了良好的基础。因为语言模型可以说是AIGC最重要的底层积木,比如如今主流的AI图像模型实际上就由两部分构成:基于GPT-3的Clip模型以及Diffusion模型。在去年就做出国内领先的语言模型的前提下,今年能赶上新一波技术热潮、做出“全家桶”也就顺理成章了。
除了技术上的前瞻,他们也有一些其他的“拼图”,比如昆仑万维旗下拥有一款叫StarMaker的音频社交产品——这是在海外最火的K歌软件,它拥有大量正版的优质作品曲库。这可以说是他们得天独厚的优势,因为这款产品为他们积累了极强的音频处理能力和训练基础。因此方汉称,昆仑万维在AI音乐方面有全球的绝对领先地位。
02
AIGC能为一家公司带来
多大的可能性?
拥有这样一套AI技术,对一家游戏公司来说意味着什么?最大的影响当然是降本增效。一方面,降的是美术、音乐的外包成本。方汉称,如今昆仑万维自研游戏的所有音乐和部分美术资产都将不再外包。他们的某款游戏结合AI音乐,用不到一个月时间制作了200首高质量的BGM,几乎抹消了这一块的外包成本;
另一方面,增的是产品的研发、沟通效率。此前 报道AI绘画 时,我们就试想过AIGC影响研发,甚至成为游戏人一项必备技能的可能性。事实证明,有许多游戏公司已经验证了这一点,昆仑万维也不例外。比如如今他们的策划对接美需时,都会以AI作品打样来方便沟通。在语言模型成熟后,变化可能还会更大。
另外,AIGC也是元宇宙的一块重要拼图。因为元宇宙作为大型虚拟世界,其中的内容量实在太大了,人工去堆显然不现实。但有了AIGC,不说靠它自动生成,即便只是发挥好降本增效,也会对内容量有极大的助力。
但如果你只从游戏公司的角度来看这件事,那就显得格局小了,毕竟昆仑万维本身也不是游戏行业的常规型选手,这让他们可以有很刁钻的打法。因为不仅游戏公司在音乐方面有刚需,娱乐、时尚等其他行业也有。昆仑万维目前就已经与头部车企达成了战略合作,甚至还与教育机构达成了AI音乐教育辅学合作。想想音乐的应用场景,只能说这项应用的行业跨度会非常恐怖。
不止是跨度,在深度上,AIGC也有极高的上限。方汉举了一个例子:国外有一家公司叫Grammarly,主打用AI来进行英文语法纠错,现在他们大概有四千万用户、一千万付费用户,它的上限可能就是覆盖所有Office用户。而这还只是语法纠错这一条很窄的赛道,如果上升到更大的内容层面,AIGC对于行业的重塑程度会是颠覆性的。
但在音乐之外,AI生成文本和图像的商业化其实还需要更多探索。方汉提到了他们的认知:现在的所有AIGC作品都只是素材而非内容——比如一张AI画的画,用户最终是没兴趣看的,除非你能把它融入到你的产品、内容中供用户消费。
而这样的转变,还需要整个行业共同的努力来推动。所以他们才选择了免费开源,并且也会在这个过程中“打辅助”,通过将AIGC转化为生产力工具来盈利,比如制作Photoshop等日常工具的AIGC插件。在发布会上,方汉表示他们也会通过如Mango DB 、databricks的方法,在商业支持、云服务方面形成收入来源,同时大力去做B端和C端的应用。
有一说一,这种想法在国内是比较难得的,毕竟在壁垒被反复强调的今天,谁掌握了领先技术都会想藏着掖着。但昆仑万维在开源方面的认知确实有多年积累了,比如CEO方汉自己就是国内最早一批接触互联网的人,也是中国第一本Linux书的作者。昆仑万维旗下的昆仑资本曾投资过国内最好的开源数据库厂商PingCAP,据说当时他们读了PingCAP的代码、爬了社区的数据,在见面时给PingCAP团队提了不少建议,还让对方有些惊讶——昆仑万维怎么会对开源社区这么了解?
03
AIGC是一盘超脱于
游戏行业的大棋
带着这样的认知基础,昆仑万维才做出了开源的选择。其实把技术闭源握在手里,再通过卖API盈利,是大厂非常常见且正确的做法——挣钱嘛,不寒碜。但这样做难免影响行业生态,因为无法接触底层技术,大部分中小厂商就只能购买API、做应用,以通过用户付费盈利。而开源模型,则给了中小厂商另一种低成本的选择。
这种选择最大的意义,就是能快速推动技术全面发展。因为在大量用户使用开源模型后,群众的智慧会是无限的。此前火热的Disco Diffusion和Stable Diffusion正是如此,如果Stability.AI没有开源模型,Midjourney等一系列产品就不会诞生,AI绘画也必定不会飞速发展、被探索出这么多有趣的玩法。
另外,开源也能让一些更细分、长尾,但通常情况下难以商业化的领域百花齐放。比如有一款基于Stable Diffusion迭代的模型,专门用于生成美甲图案。大厂不可能有精力来下场经营这样的赛道,但开源恰恰就能满足这种千人千面的需求。
如方汉所说,开源会推动技术民主化、降低行业的入局门槛,催生更多创新型的中小创业公司。这对游戏行业来说同样不难想象——如今几乎所有头部大厂都有自己的AI研发团队,这种壁垒没有多年积累是很难赶上的。但如果有一家公司站出来开源,或是提供全面的定制化服务,其他所有公司可能就都有了站在同一起跑线上的机会。
到了这一步,格局还能再大吗?可以。方汉提到了一点:如今全球的内容产出比在很多方面都是不均衡的,比如要论小说,全世界的产出量估计都没有中国的网文量大;但要论漫画,中国则赶不上日、美、韩。创作者的不均,对一些文化领域是不公平的,比如某种语言如果只有500万人使用,那可能就会极度缺乏各种内容。但AIGC的发展,很可能为这种局面带来变革,因为它能让所有文化领域都较为均衡地获取内容产品。
由此种种看来,其实AIGC远不止是游戏研发的助推器,而是一盘大棋。如今在棋局中有这么一家中国公司站出来,此后的局势恐怕会更加精彩。毕竟AI不是我们的敌人,而是代表着内容产业变革的前兆,以及无限的可能性。
据《商业内幕》和《纽约时报》消息,Meta虚拟现实业务首席技术顾问JohnCarmack已从Meta离职。
从第一天开始甲方客户都有非常明确的结果要求,服务必须全面从客户出发,交付符合预期的结果。
快鲤鱼首发丨「图湃医疗」完成近3亿元人民币C轮融资,上海盛石资本领投,图湃医疗已完成眼科OCT、眼科手术显微镜、超广角眼底相机、生物测量仪
所以,当这些技术全部成熟,并且融为一体,那么丝毫不用怀疑,阿凡达呈现的科幻世界,距离我们并不遥远。
据《商业内幕》和《纽约时报》消息,Meta虚拟现实业务首席技术顾问JohnCarmack已从Meta离职。
地产搭档是仲量联行专门针对中国商业地产市场推出的在线交易平台,提供办公楼和零售地产的租售服务。
历史第一次啊,阿里云香港某机房设备异常,大面积停摆24小时,很多大企业都受影响了。
ChatGPT彻底让网友们陷入疯狂,也带?了一众理论研究。