熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

2023-04-24 11:04:12   来源:机器之心

GPT-4 的识图能力什么时候能上线呢?这个问题目前依然没有答案。


(相关资料图)

但研究社区已经等不及了,纷纷自己上手 DIY,其中最火的是一个名为MiniGPT-4的项目。MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。

今天要介绍的项目 ——LLaVA(Large Language and Vision Assistant)与之类似,是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。

论文链接:https://arxiv.org/pdf/2304.08485.pdf项目链接:https://llava-vl.github.io/

该模型展示出了一些接近多模态 GPT-4 的图文理解能力:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上进行微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53% 准确率的新 SoTA。

以下是机器之心的试用结果(更多结果见文末):

论文概览

人类通过视觉和语言等多种渠道与世界交互,因为不同的渠道在代表和传达某些概念时都有各自独特的优势,多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态指令,例如视觉或语言的指令,满足人类的意图,在真实环境中完成各种任务。​

为此,社区兴起了对开发基于语言增强的视觉模型的风潮。这类模型在开放世界视觉理解方面具有强大的能力,如分类、检测、分割和图文,以及视觉生成和视觉编辑能力。每个任务都由一个大型视觉模型独立解决,在模型设计中隐含地考虑了任务的需求。此外,语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义(人类交流的常见渠道)方面发挥了重要作用,但它导致模型通常具有固定的界面,在交互性和对用户指令的适应性上存在限制。​

另一方面,大型语言模型(LLM)已经表明,语言可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经网络助理切换模式来完成任务。例如,ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵循人类指令完成任务方面的能量,并掀起了开发开源 LLM 的热潮。其中,LLaMA 是一种与 GPT-3 性能相近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器生成的高质量指令跟踪样本来提高 LLM 的对齐能力,与专有 LLM 相比,展示出了令人印象深刻的性能。但遗憾的是,这些模型的输入仅为文本。​

在本文中,研究者提出了视觉 instruction-tuning 方法,首次尝试将 instruction-tuning 扩展到多模态空间,为构建通用视觉助理铺平了道路。

具体来说,本文做出了以下贡献:

多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式;大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4,本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。开源。研究者向公众发布了以下资产:生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。LLaVA 架构​

本文的主要目标是有效利用预训练的 LLM 和视觉模型的功能。网络架构如图 1 所示。本文选择 LLaMA 模型作为 LLM fφ(・),因为它的有效性已经在几个开源的纯语言 instruction-tuning 工作中得到了证明。

对于输入图像 X_v,本文使用预训练的 CLIP 视觉编码器 ViT-L/14 进行处理,得到视觉特征 Z_v=g (X_v)。实验中使用的是最后一个 Transformer 层之前和之后的网格特征。本文使用一个简单的线性层来将图像特征连接到单词嵌入空间中。具体而言,应用可训练投影矩阵 W 将 Z_v 转换为语言嵌入标记 H_q,H_q 具有与语言模型中的单词嵌入空间相同的维度:

之后,得到一系列视觉标记 H_v。这种简单投影方案具有轻量级、成本低等特点,能够快速迭代以数据为中心的实验。也可以考虑连接图像和语言特征的更复杂(但昂贵)的方案,例如 Flamingo 中的门控交叉注意力机制和 BLIP-2 中的 Q-former,或者提供对象级特征的其他视觉编码器,如 SAM。

实验结果

多模态聊天机器人

研究者开发了一个聊天机器人示例产品,以展示 LLaVA 的图像理解和对话能力。为了进一步研究 LLaVA 如何处理视觉输入,展现其处理指令的能力,研究者首先使用 GPT-4 原始论文中的示例,如表 4 和表 5 所示。使用的 prompt 需要贴合图像内容。为了进行比较,本文引用了其论文中多模态模型 GPT-4 的 prompt 和结果。

令人惊讶的是,尽管 LLaVA 是用一个小的多模态指令数据集(约 80K 的不重复图像)训练的,但它在以上这两个示例上展示了与多模态模型 GPT-4 非常相似的推理结果。请注意,这两张图像都不在 LLaVA 的数据集范围内,LLaVA 能够理解场景并按照问题说明进行回答。相比之下,BLIP-2 和 OpenFlamingo 专注于描述图像,而不是按照用户指令以适当的方式进行回答。更多示例如图 3、图 4 和图 5 所示。

定量评估结果见表 3。

ScienceQA

ScienceQA 包含 21k 个多模态多选问题,涉及 3 个主题、26 个话题、127 个类别和 379 种技能,具有丰富的领域多样性。基准数据集分为训练、验证和测试部分,分别有 12726、4241 和 4241 个样本。本文对比了两种有代表性的方法,包括 GPT-3.5 模型(text-davinci-002)和没有思维链(CoT)版本的 GPT-3.5 模型,LLaMA-Adapter,以及多模态思维链(MM-CoT)[57],这是该数据集上当前的 SoTA 方法,结果如表 6 所示。

试用反馈

在论文给出的可视化使用页面上,机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人任务。测试表明,数人的时候较小的目标会被忽略,重叠的人也有识别误差,性别也有识别误差。

接着,我们尝试了一些生成任务,比如为图片起名字,或者根据图片讲一个故事。模型输出的结果还是偏向于图片内容理解,生成方面的能力还有待加强。

在这张照片中,即便人体有重合也依然能准确地识别出人数。从图片描述和理解能力的角度来看,本文的工作还是存在亮点,存在着二创的空间。

关键词:

精彩阅读

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

智能

GPT-4的识图能力什么时候能上线呢?这个问题目前依然没有答案。但研究社区已经等不及了,纷纷自己上手DIY,

第133届广交会第二期开幕

智能

央视网消息(新闻联播):第133届广交会第二期今天(4月23日)开幕,展出时间为4月23日到4月27日,本期

长三角数字经济发展拾阶而上 再掀发展新热潮

智能

近日,浙江省召开全省数字经济创新提质“一号发展工程”大会,提出“激发新活力、增添新动力、抢占新赛道,

那不勒斯有意齐耶赫 切尔西希望将其加入奥斯梅恩或KK转会中 观点

智能

球天下4月24日讯摩洛哥球星齐耶赫在切尔西出场时间非常不稳定,他本来在今年冬窗接近加盟巴黎,但最终由于

当前聚焦:全国田径大奖赛鄂军报喜 斩获3金多人刷新个人最好成绩

智能

全国田径大奖赛鄂军报喜斩获3金多人刷新个人最好成绩---湖北日报讯(记者马明玉、通讯员陈洁)4月23日,202

3A游戏涨价、质量还翻车 CDPR称太难了:成本撑不住

智能

快科技4月23日消息,这几年AMD、NVIDIA及Intel的游戏硬件性能升级不小,但是对玩家而言,3A游戏的体验可能

绍兴新昌:住宅房屋被征收人申请房票安置最高给予35%奖励

智能

被征收人申请房票安置的,原则上按照住宅房屋按评估比准价乘以被征收房屋建筑面积作为基数,国有土地上的给

今日视点:zippo油多少钱一瓶(zippo油)

智能

1、zippo打火机的油和普通打火机的气儿相比较的话耐用的是打火机的气儿。2、毕竟zippo油是靠一些棉花吸收下

日本第一恋爱天才,被渣男折磨到只剩68斤-微头条

智能

直到田中美奈实的一部纪录片问世,她不为人知的一面,才被众人看到。但在自己不擅长的领域里,她产生了自卑

龙珠里的人造人18号的脚_龙珠人造人十八号催眠受精

智能

1、那个只是作者的符人物罢了,一笔带过,不用再去找了。2、作者的意图是让读者了解克林很不懂女孩子并且恋

财富

oppoa55是超级闪充吗?oppoa55手机在哪设置闪充?

资讯

oppoa55是超级闪充吗?想要闪充就需要特定功率的充电头和线,但是仅有这些还不够,充电头还需要拥有oppo专门用的vooc闪充协议,才可实现闪充

华为来电屏幕不显示怎么办?华为来电不会自动亮屏?

资讯

华为来电屏幕不显示怎么办?1 手机未开通来电显示功能,建议联系运营商咨询开通和相关收费事宜。2 对方使用的是网络电话软件拨打的电话。3

怎么把手机浏览器删掉?如何关闭语音秘书?

资讯

怎么把手机浏览器删掉?1、营业厅方式:用户可直接到联通营业厅取消联通秘书台服务。2、人工方式: 用户可拨打10010 ,接通后按0键由客服

为什么我的手机不能拨短号?手机通话时不能用网络是怎么回事?

资讯

为什么我的手机不能拨短号?1 查看手机是否处于飞行模式。2 检查手机信号是否稳定。若网络信号不好或无信号,请将手机关机重启,重新搜索网

共享充电宝买下来怎么使用?共享充电宝不带充电口如何用?

资讯

共享充电宝买下来怎么使用?01、首先你要做的就是打开手机用微信的扫描去扫描共享充电宝上面的二维码。02、然后弹出缴费的页面,根据你充电

“北串南下”,东北烧烤凭什么制霸全国?

资讯

“北串南下”,东北烧烤凭什么制霸全国?,淄博烧烤热度不减,东北烧烤申请出战

小红书:种草≠拔草

资讯

小红书:种草≠拔草,小红书又“翻车”了

90后为何不买雅迪高端车? 世界播资讯

资讯

90后为何不买雅迪高端车?,电动两轮车行业早已进入烈火烹油般的“高端化比拼”

共享充电宝买了怎么充电?共享充电宝现在哪个最好?

资讯

共享充电宝买了怎么充电?共享充电宝发展初期也有很多人看不懂,这个玩意能赚钱吗,一个小时才2块,很多人看不上!很多人忽略了管道收益,忽

【全球速看料】“疯魔化”的咖啡,星巴克看了都怕

资讯

“疯魔化”的咖啡,星巴克看了都怕,咖啡节,怎么了?

FinTech荣誉 | 神州信息腾讯云携手 开放生态促成果转化_焦点

神州信息腾讯云携手,开放生态促成果转化。

聚焦大数据场景,神州控股如何深挖数字经济?_天天热门

据工信部统计,软件业利润增速较上年同期回落1 9个百分点,主营业务利润率回落0 1个百分点至9 1%。

【核芯观察】卫星通信产业链分析(二)

卫星通信产业链冗长,从卫星制造到发射,从地面设施和终端再到卫星通信运营和服务,每个部分都是一个完整的

MICCAI23 FLARE邀您一起打造腹部泛癌CT分割Foundation Models

MICCAI23FLARE邀您一起打造腹部泛癌CT分割FoundationModels。

昆仑万维:公司旗下Opera浏览器目前接入ChatGPT 看热讯

昆仑万维在互动平台表示,公司旗下Opera浏览器目前接入ChatGPT,且合作奇点智源。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个