首页> 热点 >

热议：微软亚研院：Language Is Not All You Need

2023-03-06 15:13:52 来源：商业新知网

鱼羊发自凹非寺量子位 | 公众号 QbitAI

还记得这张把谷歌AI搞得团团转的经典梗图吗？

现在，微软亚研院的新AI可算是把它研究明白了。

(相关资料图)

拿着这张图问它图里有啥，它会回答：我看着像鸭子。

但如果你试图跟它battle，它就会改口：看上去更像兔子。并且还解释得条条是道：

图里有兔子耳朵。

是不是有点能看得懂图的ChatGPT内味儿了？

这个新AI名叫Kosmos-1，谐音Cosmos（宇宙）。AI如其名，本事确实不小：图文理解、文本生成、OCR、对话QA都不在话下。

甚至连瑞文智商测试题都hold住了。

而具备如此能力的关键，就写在论文的标题里：Language is not all you need。

多模态大语言模型

简单来说，Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。

在感知图片、文字等不同模态输入的同时，Kosmos-1还能够根据人类给出的指令，以自回归的方式，学习上下文并生成回答。

研究人员表示，在多模态语料库上从头训练，不经过微调，这个AI就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。

比如甩出一张猫猫图，问它这照片好玩在哪里，Kosmos-1就能给你分析：猫猫戴上了一个微笑面具，看上去就像在笑。

又比如让它看一眼MSRA用来高效训练大模型的TorchScale工具包的主页，Kosmos-1也能快速get这个库是用来干啥的。

Kosmos-1还能理解图像上下文。发一张食物的照片给它，这个AI不仅能回答你这是什么，还能在你追问如何烹饪时，给出食谱和烹调小建议。

Kosmos-1的骨干网络，是一个基于Transformer的因果语言模型。Transformer解码器作为通用接口，用于多模态输入。

用于训练的数据来自多模态语料库，包括单模态数据（如文本）、跨模态配对数据（图像-文本对）和交错的多模态数据。

值得一提的是，虽说“Language is not all you need”，但为了让Kosmos-1更能读懂人类的指示，在训练时，研究人员还是专门对其进行了仅使用语言数据的指令调整。

具体而言，就是用（指令，输入，输出）格式的指令数据继续训练模型。

实验结果

研究人员在5大类共10个任务中，测试了Kosmos-1的效果，包括：

语言任务：语言理解、语言生成、无OCR文本分类

跨模态迁移：常识推理

非语言推理：IQ测试（瑞文递进矩阵）

感知-语言任务：图像说明、视觉QA、网页QA

视觉任务：零样本图像分类、带描述的零样本图像分类

从实验结果上来看，Kosmos-1基本都hold住了。

零样本图像说明：

零样本视觉QA：

无OCR文本理解：

研究人员还提到，Kosmos-1是第一个能完成零样本瑞文智商测试的AI。

不过，跟成年人类的平均水平相比，AI的“智商”还差得有点远。随机选择的正确率为17%，而Kosmos-1经过指令调教之后，准确率为26%。

研究人员认为：

但Kosmos-1证明了多模态大模型有潜力将感知和语言结合起来，进行零样本的非语言推理。

另外，研究人员还展示了Kosmos-1处理复杂问答和推理任务的过程。关键在于多模态思维链提示。

研究人员将感知-语言任务分解为两个步骤。第一步，给定一个图像，引导模型对图像进行分析。

第二步，把模型子集分析出来的结果再喂给它，并给出任务提示，以生成最后的答案。

这项新研究来自MSRA的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。

三位一作分别是Shaohan Huang、董力和Wenhui Wang。

关键词：研究人员语言模型

精彩阅读

热议：微软亚研院：Language Is Not All You Need

热点

Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。

科技部部长十天两提ChatGPT

热点

十天内，科技部部长王志刚在不同的场合两次提到了智能聊天工具ChatGPT。

当前看点!聚观早报 |京东百亿补贴今日上线；微软推出全能型人工智能模型

热点

考虑到用户体验不佳，已将该应用下架，并立即着手优化。同时也为自己的工作不够细致完善深表歉意。

今日看点：软件巨头Salesforce掌舵人敲响衰退警钟强调公司战略转向

热点

Benioff认为，公司此前有过应对经济衰退的经验，“我们知道如何改造公司”。

新动态：硅谷哪一点最值得中国创业者们学习？

热点

斯坦福视角下的硅谷叙事。

物联网网络安全中容易忽视的几大问题

热点

作为下一代通信网络的关键技术之一，物联网将引发一场信息革命。

全球观察：6G、人工智能、低碳转型，三位部长这样说→

热点

持续加大生态保护和修复的监管力度，实施生物多样性保护重大工程，努力提升和保持生态系统的多样性、稳定性和持续性。

天天要闻：为什么协议会销毁代币？ BNB使用回购和销毁，冲进全球市值前5名

热点

人们毕生致力于积累去中心化资产，希望有一天当他们的代币价值飙升时，他们会变得非常富有。

环球热点评！奥普光电：禹衡光学的产品在工业机器人领域已成为大型企业稳定供货商

热点

奥普光电：禹衡光学的产品在工业机器人领域已成为大型企业稳定供货商。

一周热门项目动态: ZigZag空投等（0227-0305）

热点

以太坊开发者：Goerli测试网最终会被关闭。

财富

今日热文：硅谷哪一点最值得中国创业者们学习？

资讯

硅谷哪一点最值得中国创业者们学习？,斯坦福视角下的硅谷叙事

苏宁易购官网和京东哪个好？京东和苏宁哪个靠谱？

资讯

1、京东是完全的电子商务网上购物平台，没有任何的实体门店。而苏宁易购是从实体店苏宁电器衍生出来的网上购物平台，有自己的实体门店。2、

路由器都有哪些牌子？路由器面板哪个牌子好？

资讯

一、品牌：1、目前最好的路由器牌子有网件、领势、UNBT。2、他们的路由器信号稳定、功能丰富，但是普遍价格昂贵，性价比一般。3、老牌路

winter中文意思是什么？winterboard教程是什么？

资讯

Springboard，通俗来讲就是苹果iDevice的桌面，属于Dock式结构。 summerboard，是第三方软件Summerboard主题美化软件。 Winterboard，可

tplink无线路由器设置步骤是什么？tp路由器如何设置网速快？

资讯

1、宽带拨号用户名与密码2、路由器+网线(如果是无线路由器就不需要另外接电脑的网线了)如果路由器忘了密码或者不是新买的可以通过用牙签

魔兽世界裂齿如何驯服？魔兽世界掘地鼠怎么抓？

资讯

放土拨鼠的箱子需要2000个委任状，然后小怪每次掉1-2个，2W血以上精英怪每次掉3-4个，推荐刷锈水海滩那片的伐木机。然后换的箱子说是20分钟

每日快讯!融资丨打造专业康复机器人矩阵，司羿智能获近亿元A轮融资

资讯

融资丨打造专业康复机器人矩阵，司羿智能获近亿元A轮融资,所募集资金将用于加速司羿智能在神经康复领域一体化解决方案的创新研发以及打造数字

daemontools设置虚拟光驱？daemonto虚拟光驱教程？

资讯

1、打开daemon tools lite免费版，点击【添加虚拟光驱】然后选择驱动，2、点击daemon tools中的【添加映像】选项;3、在打开的窗口中，选

qq飞车白羊为什么这么厉害？qq飞车怎么才能得到绵羊？

资讯

凡是开通个人后花园的玩家，可进行专属任务中开通送宠物免费获得一只永久的羊年纪念宠物【白羊萝莉】(装备该宠物进入花园，可以获得额外花

英雄联盟男枪打野出什么装备？英雄联盟男枪上单出装？

资讯

第一件装备出星蚀，首先它的属性就很优秀，攻击力，穿甲，吸血。这件装备的被动厉害在于两次独立攻击或者技能命中能造成最大生命值百分比伤

MORE+ 资讯

MORE+ 热点

热议：微软亚研院：Language Is Not All You Need

科技部部长十天两提ChatGPT

十天内，科技部部长王志刚在不同的场合两次提到了智能聊天工具ChatGPT。

当前看点!聚观早报 |京东百亿补贴今日上线；微软推出全能型人工智能模型

考虑到用户体验不佳，已将该应用下架，并立即着手优化。同时也为自己的工作不够细致完善深表歉意。

今日看点：软件巨头Salesforce掌舵人敲响衰退警钟强调公司战略转向

Benioff认为，公司此前有过应对经济衰退的经验，“我们知道如何改造公司”。

新动态：硅谷哪一点最值得中国创业者们学习？

斯坦福视角下的硅谷叙事。

物联网网络安全中容易忽视的几大问题

作为下一代通信网络的关键技术之一，物联网将引发一场信息革命。

热议：微软亚研院：Language Is Not All You Need

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI

多模态大语言模型

实验结果

鱼羊发自凹非寺量子位 | 公众号 QbitAI