GPT-4平替来了!华人团队开源miniGPT-4,只需23G显存,画草稿写网站,还能帮你修洗衣机

2023-04-23 11:21:44   来源:商业新知网

磐创AI分享

转自 | 新智元

编辑 | LRS


(资料图片)

【导读】 技术爆发的时代,一切都得拼手速!
Describe this image in detail. Give as many details as"],[20,"n","24:"iC1Y"|direction:"ltr""],[20,"possible. Say everything you see. ###Assistant:"],[20,"n","24:"3b7e"|direction:"ltr""],[20,"n","24:"1OQB"|direction:"ltr""],[20,"其中表示线性投影层生成的视觉特征,如果生成的描述不足80个tokens,就添加额外的提示符「#Human:Continue#Assistant:」继续生成。"],[20,"n","24:"m1XQ"|direction:"ltr""],[20,"n","24:"nWro"|direction:"ltr""],[20,"最后从Conceptual Caption中随机选择了5000幅图像,并生成对应的描述。"],[20,"n","24:"18V4"|direction:"ltr""],[20,"n","24:"44dl"|direction:"ltr""],[20,"数据后处理"],[20,"n","24:"RXZT"|direction:"ltr""],[20,"n","24:"uNtf"|direction:"ltr""],[20,"目前生成的图像描述仍然包含许多噪音和错误,如重复的单词、不连贯的句子等,研究人员使用ChatGPT来完善描述。"],[20,"n","24:"o2PD"|direction:"ltr""],[20,"n","24:"gPvk"|direction:"ltr""],[20,"Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation."],[20,"n","24:"wzcA"|direction:"ltr""],[20,"修正给定段落中的错误。删除重复的句子、无意义的字符、不是英语的句子等等。删除不必要的重复。重写不完整的句子。直接返回结果,无需解释。如果输入的段落已经正确,则直接返回,无需解释。"],[20,"n","24:"vxGa"|direction:"ltr""],[20,"n","24:"pau7"|direction:"ltr""],[20,"最后为了保证数据质量,手动验证每个图像描述的正确性,并得到了3500个图像-文本对。"],[20,"n","24:"Dise"|direction:"ltr""],[20,"n","24:"ZXBz"|direction:"ltr""],[20,"3、微调阶段"],[20,"n","24:"tnvE"|direction:"ltr""],[20,"n","24:"kLuo"|direction:"ltr""],[20,"研究人员使用预定义的模板提示来优化预训练模型。"],[20,"n","24:"XeIU"|direction:"ltr""],[20,"n","24:"8rUn"|direction:"ltr""],[20,"###Human: ###Assistant"],[20,"n","24:"5xWe"|direction:"ltr""],[20,"n","24:"cFeh"|direction:"ltr""],[20,"其中表示从预定义指令集中随机抽样的指令,包含各种形式的指令,例如「详细描述此图像」或「您能为我描述此图像的内容吗」等。"],[20,"n","24:"sy9N"|direction:"ltr""],[20,"n","24:"gaaR"|direction:"ltr""],[20,"需要注意的是,微调阶段没有计算特定文本-图像提示的回归损失,所以可以生成更自然、可靠的回复。"],[20,"n","24:"fnwZ"|direction:"ltr""],[20,"n","24:"OtKX"|direction:"ltr""],[20,"MiniGPT-4的微调过程非常高效,batch size为12的话,只需要400个训练步,使用单个A100 GPU训练7分钟即可。"],[20,"n","24:"Shzj"|direction:"ltr""],[20,"n","24:"cTy5"|direction:"ltr""],[20,"示例"],[20,"n","24:"YUPu"|32:1|direction:"ltr""],[20,"n","24:"A276"|direction:"ltr""],[20,"MiniGPT-4表现出了与GPT-4类似的多模态能力。"],[20,"n","24:"Soum"|direction:"ltr""],[20,"n","24:"PZvt"|direction:"ltr""],[20,"给一张图片,可以让模型生成非常详细的图像描述。"],[20,"n","24:"ZObX"|direction:"ltr""],[20,"n","24:"qbMX"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/HYare57q3nAv92Vy.png!thumbnail"},"29:0|30:0|3:"935"|4:"auto"|crop:""|frame:"none"|ori-height:"578"|ori-width:"935""],[20,"n","24:"WbRz"|direction:"ltr""],[20,"n","24:"xWYN"|direction:"ltr""],[20,"识别图像中的梗,比如解释「一到周一,人就像图里的小狗一样,一周中最令人恐惧的一天」。"],[20,"n","24:"FPFq"|direction:"ltr""],[20,"n","24:"N1wM"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/y3PuBvBu5inwt8kt.png!thumbnail"},"29:0|30:0|3:"918"|4:"auto"|crop:""|frame:"none"|ori-height:"863"|ori-width:"918""],[20,"n","24:"ZWgI"|direction:"ltr""],[20,"n","24:"xlxg"|direction:"ltr""],[20,"还可以发现图像中不寻常的内容,比如「狼和小羊在同一片草地」。"],[20,"n","24:"TyMZ"|direction:"ltr""],[20,"n","24:"Naiy"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/wQasB8HbMMkoQM0l.png!thumbnail"},"29:0|30:0|3:"920"|4:"auto"|crop:""|frame:"none"|ori-height:"723"|ori-width:"920""],[20,"n","24:"XjOK"|direction:"ltr""],[20,"n","24:"h2i8"|direction:"ltr""],[20,"还可以根据手绘图生成一个网站的代码。"],[20,"n","24:"Q3hf"|direction:"ltr""],[20,"n","24:"r0ds"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/NBDmiE1y832hbaww.png!thumbnail"},"29:0|30:0|3:"688"|4:"auto"|crop:""|frame:"none"|ori-height:"1057"|ori-width:"688""],[20,"n","24:"CYpF"|direction:"ltr""],[20,"n","24:"XtpE"|direction:"ltr""],[20,"MiniGPT-4还可以识别图像中的问题并提供解决方案,比如「洗衣机冒出了大量泡泡」是因为过载等原因,可以检查洗衣液是不是放多了、清理一下排水管或是看看洗衣机是不是坏了。"],[20,"n","24:"EyB3"|direction:"ltr""],[20,"n","24:"9WfQ"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/bJepwHmGmLsufAGR.png!thumbnail"},"29:0|30:0|3:"862"|4:"auto"|crop:""|frame:"none"|ori-height:"859"|ori-width:"862""],[20,"n","24:"0XoZ"|direction:"ltr""],[20,"n","24:"OLBl"|direction:"ltr""],[20,"创作以图像为主题的诗歌或说唱歌曲。"],[20,"n","24:"7UpI"|direction:"ltr""],[20,"n","24:"giqN"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/B5T9LOJKNwsRTfM8.png!thumbnail"},"29:0|30:0|3:"852"|4:"auto"|crop:""|frame:"none"|ori-height:"1119"|ori-width:"852""],[20,"n","24:"cEfu"|direction:"ltr""],[20,"n","24:"qMpD"|direction:"ltr""],[20,"编写图像背后的故事。"],[20,"n","24:"E2qE"|direction:"ltr""],[20,"n","24:"oaUs"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/2kLbTjeDQQRhuz03.png!thumbnail"},"29:0|30:0|3:"858"|4:"auto"|crop:""|frame:"none"|ori-height:"994"|ori-width:"858""],[20,"n","24:"356J"|direction:"ltr""],[20,"n","24:"zGm6"|direction:"ltr""],[20,"为图像中的产品写广告词。"],[20,"n","24:"buzM"|direction:"ltr""],[20,"n","24:"yXKr"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/Em4B3AUYif8K0N3K.png!thumbnail"},"29:0|30:0|3:"843"|4:"auto"|crop:""|frame:"none"|ori-height:"580"|ori-width:"843""],[20,"n","24:"Lq4K"|direction:"ltr""],[20,"n","24:"S0II"|direction:"ltr""],[20,"甚至还可以知道换头表情包里的人是Tesla和Space X的CEO马斯克。"],[20,"n","24:"HzVJ"|direction:"ltr""],[20,"n","24:"RmIE"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/vJlag6w8pzNrcuI4.png!thumbnail"},"29:0|30:0|3:"850"|4:"auto"|crop:""|frame:"none"|ori-height:"342"|ori-width:"850""],[20,"n","24:"ZwPm"|direction:"ltr""],[20,"n","24:"fnNV"|direction:"ltr""],[20,"提供一些有深度的图像评论。"],[20,"n","24:"dhM1"|direction:"ltr""],[20,"n","24:"0Jd2"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/Ts0UZkUs5YIlaj9r.png!thumbnail"},"29:0|30:0|3:"851"|4:"auto"|crop:""|frame:"none"|ori-height:"778"|ori-width:"851""],[20,"n","24:"9y5o"|direction:"ltr""],[20,"检索与图像相关的事实,比如给个《教父》的截图就可以让模型检索到对应的电影信息。"],[20,"n","24:"OpjE"|direction:"ltr""],[20,"n","24:"6p9x"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/WdUSkSItJL7wGGAF.png!thumbnail"},"29:0|30:0|3:"820"|4:"auto"|crop:""|frame:"none"|ori-height:"682"|ori-width:"820""],[20,"n","24:"lAZB"|direction:"ltr""],[20,"n","24:"Nn1g"|direction:"ltr""],[20,"甚至给个食物的照片,可以让模型输出一份菜谱。"],[20,"n","24:"knp7"|direction:"ltr""],[20,"n","24:"0M4T"|direction:"ltr""],[20,{"gallery":"https://uploader.shimo.im/f/Ih4Np9H7q9Tqk6u7.png!thumbnail"},"29:0|30:0|3:"879"|4:"auto"|crop:""|frame:"none"|ori-height:"682"|ori-width:"879""],[20,"n","24:"T3TC"|direction:"ltr""],[20,"n","24:"o7SP"|direction:"ltr""],[20,"更多强大的功能等你解锁!"],[20,"n","24:"Wr6v"|direction:"ltr""],[20,"n","24:"F6jK"|direction:"ltr""],[20,"不足之处"],[20,"n","24:"oqjj"|direction:"ltr""]]" data-copy-origin="https://shimo.im">

先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的 多模态能力 。

不光能读懂人类的梗,给个手绘草图甚至可以直接写出网站的代码,彻底颠覆了对语言模型、视觉模型能力边界的认知。

GPT-4:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。

不过像GPT-4这么好的模型,CloseAI选择闭源,让广大AI从业者实在是又爱又恨。

最近,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队开源了 GPT-4的平民版MiniGPT-4 ,从效果上看已经基本具备GPT-4所展现出的多个功能,包括手写网页示意图生成代码、解读图像中的梗等。

论文链接: https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

项目链接: https://minigpt-4.github.io/

代码链接: https://github.com/Vision-CAIR/MiniGPT-4

想要本地部署,一行代码即可搞定!

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

默认加载选项为8bit Vicuna模型以节省GPU内存,beam search的宽度为1,大约需要23G显存。

为了实现有效的MiniGPT-4,研究人员提出了一个两阶段的训练方法,先在大量对齐的图像-文本对上对模型进行预训练以获得视觉语言知识,然后用一个较小但高质量的图像-文本数据集和一个设计好的对话模板对预训练的模型进行微调,以提高模型生成的可靠性和可用性。

文中的研究结果表明,MiniGPT-4具有许多与 GPT-4类似的能力,如通过手写草稿生成详细的图像描述和创建网站;还可以观察到 MiniGPT-4的其他新功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。

论文作者朱德尧来自泉州,目前是阿卜杜拉国王科技大学(KAUST)的博士生,主要研究方向包括多模态大语言模型、预测模型和强化学习。

论文共同一作Jun Chen目前是阿卜杜拉国王科技大学 Vision-CAIR 研究小组的博士生,主要研究方向为多模态学习、自监督学习和大规模预训练模型。

MiniGPT-4模型架构

研究人员认为,「GPT-4强大的多模态生成能力主要来自于更强的语言模型」。

为了验证这点,研究人员选择固定住语言模型和视觉模型的参数,然后只用投影层将二者对齐:MiniGPT-4的语言解码器使用Vicuna(基于LLaMA构建),视觉感知部分使用与BLIP-2相同的视觉编码器。

1. 预训练阶段

为了从大量对齐的图像-文本对中获取视觉-语言知识,研究人员把注入投影层的输出看作是对语言模型的软提示(soft prompt),促使它生成相应的ground-truth文本;并且预训练的视觉编码器和视觉编码器在预训练阶段始终保持参数不变,只训练线性投影层。

训练数据集包括Conceptual Caption, SBU和LAION,使用4张A100(共80GB显存) GPU以256的batch size训练了20000步,覆盖了大约500万个图像-文本对。

虽然在预训练后,MiniGPT-4已经展现了丰富的知识,并能够对人类的query提供合理的回复。

不过还是可以观察到MiniGPT-4仍然很难生成连贯的语言输出,比如经常会生成重复的词或句子、零散的句子或不相关的内容,这些问题也阻碍了MiniGPT-4与人类进行流畅的视觉对话的能力。

还可以注意到GPT-3也存在类似的问题:即便在大量的语言数据集上进行了预训练,GPT-3还是不能直接生成符合用户意图的语言输出;但通过指令微调和从人类反馈中进行强化学习的过程后,GPT-3就成功蜕变为了GPT-3.5,并能够生成对人类更友好的输出。

所以只对MiniGPT-4进行预训练是不够的。

2. 高质量的视觉-语言对齐数据集

虽然在自然语言处理领域,指令微调数据集和对话相关数据集很容易获得,但对于视觉语言领域来说,并不存在对应的数据集,所以为了让MiniGPT-4在生成文本时更自然、更有用,还需要设计一个高质量的、对齐的图像-文本数据集。

在初始阶段,使用预训练后得到的模型来生成对给定图像的描述,为了使模型能够生成更详细的图像描述,研究人员还设计了一个符合Vicuna语言模型的对话格式的提示符。

###Human: Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

其中表示线性投影层生成的视觉特征,如果生成的描述不足80个tokens,就添加额外的提示符「#Human:Continue#Assistant:」继续生成。

最后从Conceptual Caption中随机选择了5000幅图像,并生成对应的描述。

数据后处理

目前生成的图像描述仍然包含许多噪音和错误,如重复的单词、不连贯的句子等,研究人员使用ChatGPT来完善描述。

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

修正给定段落中的错误。删除重复的句子、无意义的字符、不是英语的句子等等。删除不必要的重复。重写不完整的句子。直接返回结果,无需解释。如果输入的段落已经正确,则直接返回,无需解释。

最后为了保证数据质量,手动验证每个图像描述的正确性,并得到了3500个图像-文本对。

3. 微调阶段

研究人员使用预定义的模板提示来优化预训练模型。

###Human: ###Assistant

其中表示从预定义指令集中随机抽样的指令,包含各种形式的指令,例如「详细描述此图像」或「您能为我描述此图像的内容吗」等。

需要注意的是,微调阶段没有计算特定文本-图像提示的回归损失,所以可以生成更自然、可靠的回复。

MiniGPT-4的微调过程非常高效,batch size为12的话,只需要400个训练步,使用单个A100 GPU训练7分钟即可。

示例

MiniGPT-4表现出了与GPT-4类似的多模态能力。

给一张图片,可以让模型生成非常详细的图像描述。

识别图像中的梗,比如解释「一到周一,人就像图里的小狗一样,一周中最令人恐惧的一天」。

还可以发现图像中不寻常的内容,比如「狼和小羊在同一片草地」。

还可以根据手绘图生成一个网站的代码。

MiniGPT-4还可以识别图像中的问题并提供解决方案,比如「洗衣机冒出了大量泡泡」是因为过载等原因,可以检查洗衣液是不是放多了、清理一下排水管或是看看洗衣机是不是坏了。

创作以图像为主题的诗歌或说唱歌曲。

编写图像背后的故事。

为图像中的产品写广告词。

甚至还可以知道换头表情包里的人是Tesla和Space X的CEO马斯克。

提供一些有深度的图像评论。

检索与图像相关的事实,比如给个《教父》的截图就可以让模型检索到对应的电影信息。

甚至给个食物的照片,可以让模型输出一份菜谱。

更多强大的功能等你解锁!

关键词:

精彩阅读

深度伪造技术的风险、挑战及治理

热点

本文聚焦深度伪造技术,对其基本内涵、带来的风险与挑战,以及主要国家的治理措施进行了深入研究。

【环球新要闻】大觉寺数论之警惕数字化十大陷阱

热点

数字化带来效率与进步,推动变革与创新,这一点毋庸置疑,但是我们也要警惕和小心地避免数字化的陷阱。

在OpenHarmony 开发者大会2023,听见百业同鸣|天天快看点

热点

在中国发展开源,有着拓荒的色彩,没有太多现成的经验能够借鉴。

应用可期,技术Ready:5.5G加速走向现实

热点

我们常说,5G是一个网络技术与商业应用双轮驱动的时代。

三六零:2022年营收结构持续优化安全业务占比同比提升46%-世界微速讯

热点

在ChatGPT带来业务逻辑质变重估的趋势下,充分看好360在通用大模型方向的核心竞争力。

iOS微信8.0.36正式版更新,网友:没一个有用的!除了音乐VIP

热点

当好友给你发视频或语音通话时,支持显示对方的头像,即使锁屏了也能知道是谁。

美术圈炸裂:顶级大佬下场“吊打”AI,但这场比赛没有赢家

热点

在AI绘画成熟之后,关于它的争论便不止不休。

MetaERP,软件项目?软件产品?

热点

3月份华为宣布做自己的企业管理软件MetaERP以来,既有担心也有期待。

财富

红米k50pro发热怎么设置?红米k50怎么关闭温控?

资讯

红米k50pro发热怎么设置?目前并没有红米K50 Pro这款手机,或许你是想问红米K40 Pro。无论是哪款手机,都不建议关闭温控功能。由于手机内

吃麦当劳“穷鬼套餐”来减脂?年轻人想要“买得起”的营养|焦点快看

资讯

吃麦当劳“穷鬼套餐”来减脂?年轻人想要“买得起”的营养,69%的受访者表示正努力省钱。

融资丨「博奥信」完成B+轮融资,持续打造创新抗体开发平台 今日热文

资讯

融资丨「博奥信」完成B+轮融资,持续打造创新抗体开发平台,资金用于巩固和加强博奥信全球创新管线的开发与

苹果WWDC前瞻:混合现实为主 多款新MacBook将发布

资讯

苹果WWDC前瞻:混合现实为主多款新MacBook将发布,有望开启后iPhone时代。

环球今头条!围炉冰茶又火了,年轻人为何钟情围炉?

资讯

围炉冰茶又火了,年轻人为何钟情围炉?,模仿一种生活方式很难,打造“氛围感”却很容易。

谷歌大脑与DeepMind合二为一,为对抗OpenAI打造全新大模型 焦点

资讯

谷歌大脑与DeepMind合二为一,为对抗OpenAI打造全新大模型,AlphaGo之父当一把手,JeffDean改任首席科学家

环球精选!9.9元的咖啡,谁能玩得更久?

资讯

9 9元的咖啡,谁能玩得更久?,新的战场。

安徽临泉,正在召回年轻人的“人口第一大县”

资讯

安徽临泉,正在召回年轻人的“人口第一大县”,人口大县的重生

我在直播间“卖鱼”,一年卖出8个亿

资讯

我在直播间“卖鱼”,一年卖出8个亿,冰与火面前,国民菜的新出路。

投融资周报:全钒液流电池提供商融科储能融资超10亿元;慢性病与老年病药物研发商海森生物获3.15亿美元融资

资讯

投融资周报:全钒液流电池提供商融科储能融资超10亿元;慢性病与老年病药物研发商海森生物获3 15亿美元融资

深度伪造技术的风险、挑战及治理

本文聚焦深度伪造技术,对其基本内涵、带来的风险与挑战,以及主要国家的治理措施进行了深入研究。

【环球新要闻】大觉寺数论之警惕数字化十大陷阱

数字化带来效率与进步,推动变革与创新,这一点毋庸置疑,但是我们也要警惕和小心地避免数字化的陷阱。

在OpenHarmony 开发者大会2023,听见百业同鸣|天天快看点

在中国发展开源,有着拓荒的色彩,没有太多现成的经验能够借鉴。

应用可期,技术Ready:5.5G加速走向现实

我们常说,5G是一个网络技术与商业应用双轮驱动的时代。

三六零:2022年营收结构持续优化安全业务占比同比提升46%-世界微速讯

在ChatGPT带来业务逻辑质变重估的趋势下,充分看好360在通用大模型方向的核心竞争力。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个