环球短讯!商汤开源多模态多任务通用大模型“书生2.5”,迈向AGI

2023-03-15 15:03:36   来源:商业新知网

今天,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。


(相关资料图)

其拥有30亿参数,是目前全球开源模型中ImageNet准确度最高、规模最大,同时也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。

凭借在多模态多任务处理能力方面多项突破,“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。

即日起,“书生2.5”多模态通用大模型已在商汤参与的通用视觉开源平台OpenGVLab开源。

迈向AGI通用人工智能

当今快速增长的各式应用需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。

例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

【利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务】

【利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务】

除解决自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务,满足各种需求。微信截图_20230315135422.png" src="https://img.shangyexinzhi.com/xztest-image/article/5962eaaf79d57670.png?x-oss-process=image/resize,w_670" alt="新知达人, 商汤开源多模态多任务通用大模型“书生2.5”,迈向AGI" width="1230" height="917">

除全图级别的以图生文,“书生2.5”通用大模型同样可根据物体边框更精细化定位任务需求。

“书生2.5”同时具备AIGC“以文生图”的能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。

例如,借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。微信截图_20230315135445.png" src="https://img.shangyexinzhi.com/xztest-image/article/f6bf38b6bddaac65.png?x-oss-process=image/resize,w_670" alt="新知达人, 商汤开源多模态多任务通用大模型“书生2.5”,迈向AGI" width="899" height="1019">

“书生2.5”还可根据文本快速检索出视觉内容。

例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。

微信截图_20230315135504.png" src="https://img.shangyexinzhi.com/xztest-image/article/2b5a7135663b49fa.png?x-oss-process=image/resize,w_670" alt="新知达人, 商汤开源多模态多任务通用大模型“书生2.5”,迈向AGI" width="903" height="1018">

高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。

超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。

Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。

此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效率的多任务协作能力。

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型。值得一提的是,谷歌与微软均未公开模型及额外数据集。

除高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,取得了65.4的mAP。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

“书生2.5”在20余个不同场景不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

当前,“书生”还在持续学习、不断进步,致力于推动多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

▎关于OpenGVLab▎

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供坚实支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。

通过开源社区建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

关键词:

上一篇:
下一篇:
精彩阅读

环球短讯!商汤开源多模态多任务通用大模型“书生2.5”,迈向AGI

热点

今天,商汤科技发布多模态多任务通用大模型“书生(INTERN)2 5”。

【焦点热闻】900亿没白花 微软确认必应已用上GPT-4:搜索优于谷歌

热点

微软宣布自家的新版必应搜索已经用上了GPT-4,过去五周中很多人体验的必应就是GPT-4加强过的。

消息称网易内部多部门试水AI提效,利用ChatGPT进行业务测试

热点

据深厂消息,近日,网易内部正在多个部门试水AI提效,利用ChatGPT进行业务测试。

OpenAI升级GPT-4,必应聊天机器人已升级使用GPT4技术

热点

OpenAI升级GPT-4,必应聊天机器人已升级使用GPT4技术。

天天快消息!Meta第二轮裁员10000名员工,冻结5000个职位招聘

热点

Meta第二轮裁员10000名员工,冻结5000个职位招聘。

当前时讯:OpenAI推出大型语言模型GPT-4 ,可以瞬间完成硕士论文

热点

OpenAI推出大型语言模型GPT-4,可以瞬间完成硕士论文。

每日速递:GPT-4发布,ChatGPT将迎来最大升级

热点

在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。

每日速讯:澜舟科技不到一年完成数亿元融资:打造语言大模型的生成式AI

热点

自创业以来,澜舟一直坚持自主技术创新,并以孟子预训练技术体系为基础,打造了孟子系列模型及服务。

全球焦点!自动续费,带来了什么

热点

近期,官方要求:自动续费提前5天提醒用户,提供便捷退订途径。

数字中国通信行业核心资产!电信运营商夯实数字经济底座,受益上市公司梳理

热点

中国联通近日发布2022年年报,信达证券表示,公司总营收增速创近九年新高,剔除非经营性损益后,净利润规模创上市新高。

财富

全球观速讯丨耐克、阿迪们也开始卖不动了?

资讯

耐克、阿迪们也开始卖不动了?,消费者正在对大众运动品牌感到厌倦。

环球速读:大量高管离职,风平浪静的苹果暗流涌动

资讯

大量高管离职,风平浪静的苹果暗流涌动,从公开信息来看,过去这半年多离职的高管已经涉及了苹果几乎所有主要业务,从核心的硬件、软件、服务、

全球今头条!年轻人的“榴莲自由”,让中间商赚麻了

资讯

年轻人的“榴莲自由”,让中间商赚麻了,榴莲的“真香”时刻。

融资丨打造语言大模型的生成式AI,「澜舟科技」完成数亿元融资

资讯

融资丨打造语言大模型的生成式AI,「澜舟科技」完成数亿元融资 ,澜舟科技宣布公司完成了Pre-A+轮融资

GPT-4发布!ChatGPT大升级!太太太太强了!

资讯

GPT-4发布!ChatGPT大升级!太太太太强了!,一觉醒来,万众期待的GPT-4,它来了!

当前热点-为了收购暴雪,微软反击索尼

资讯

为了收购暴雪,微软反击索尼,微软一转攻势,从涉嫌垄断变成反垄断先锋

全球快资讯:首发丨「新景智源」完成近2亿元人民币A+轮融资

资讯

首发丨「新景智源」完成近2亿元人民币A+轮融资,新景智源完成近2亿元人民币A+轮融资

环球热点评!救不活的东风,扶不起的二汽?

资讯

救不活的东风,扶不起的二汽?,作为本次汽车行业史诗级价格战的发起者,东风汽车其实已到“生死存亡”的时刻。

天天讯息:火锅店纷纷外摆,谁赔谁赚?

资讯

火锅店纷纷外摆,谁赔谁赚?,“今年的外摆,比以往来得更早一些”

小红书终于不再摇摆

资讯

小红书终于不再摇摆,从克制到加速,小红书的商业化今年将交出什么样的答卷?

【焦点热闻】900亿没白花 微软确认必应已用上GPT-4:搜索优于谷歌

微软宣布自家的新版必应搜索已经用上了GPT-4,过去五周中很多人体验的必应就是GPT-4加强过的。

消息称网易内部多部门试水AI提效,利用ChatGPT进行业务测试

据深厂消息,近日,网易内部正在多个部门试水AI提效,利用ChatGPT进行业务测试。

OpenAI升级GPT-4,必应聊天机器人已升级使用GPT4技术

OpenAI升级GPT-4,必应聊天机器人已升级使用GPT4技术。

天天快消息!Meta第二轮裁员10000名员工,冻结5000个职位招聘

Meta第二轮裁员10000名员工,冻结5000个职位招聘。

当前时讯:OpenAI推出大型语言模型GPT-4 ,可以瞬间完成硕士论文

OpenAI推出大型语言模型GPT-4,可以瞬间完成硕士论文。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个