首页> 热点 >

环球短讯！商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI

2023-03-15 15:03:36 来源：商业新知网

今天，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”。

(相关资料图)

其拥有30亿参数，是目前全球开源模型中ImageNet准确度最高、规模最大，同时也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。

凭借在多模态多任务处理能力方面多项突破，“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持，向通用人工智能迈出坚实的一步。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布，并持续联合研发。

即日起，“书生2.5”多模态通用大模型已在商汤参与的通用视觉开源平台OpenGVLab开源。

▎迈向AGI通用人工智能

当今快速增长的各式应用需求下，传统计算机视觉已无法处理真实世界中数不胜数的特定任务。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生2.5”实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下，“书生2.5”可辅助处理各种复杂任务。

例如，在自动驾驶场景中，可以大幅提升场景感知理解能力，准确辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆决策规划提供有效信息输入。

【利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务】

【利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务】

除解决自动驾驶和居家机器人这类复杂问题的能力，“书生2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务，满足各种需求。微信截图_20230315135422.png" src="https://img.shangyexinzhi.com/xztest-image/article/5962eaaf79d57670.png?x-oss-process=image/resize,w_670" alt="新知达人, 商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI" width="1230" height="917">

除全图级别的以图生文，“书生2.5”通用大模型同样可根据物体边框更精细化定位任务需求。

“书生2.5”同时具备AIGC“以文生图”的能力。可根据用户提出的文本创作需求，利用扩散模型生成算法，生成高质量、自然的写实图像。

例如，借助“书生2.5”的以文生图能力帮助自动驾驶技术研发，通过生成各类真实的道路交通场景，如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等，生成写实的Corner Case训练数据，进而训练自动驾驶系统对Corner Case场景的感知能力上限。微信截图_20230315135445.png" src="https://img.shangyexinzhi.com/xztest-image/article/f6bf38b6bddaac65.png?x-oss-process=image/resize,w_670" alt="新知达人, 商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI" width="899" height="1019">

“书生2.5”还可根据文本快速检索出视觉内容。

例如，可在相册中返回文本所指定的相关图像，或是在视频中检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，实现开放世界视频或图像中物体检测及视觉定位。

微信截图_20230315135504.png" src="https://img.shangyexinzhi.com/xztest-image/article/2b5a7135663b49fa.png?x-oss-process=image/resize,w_670" alt="新知达人, 商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI" width="903" height="1018">

▎高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合，即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型（LLM）和用于多任务的兼容解码建模大模型（Uni-Perceiver）。

其中，InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式，从而为多功能视觉感知提供强大的表示。

超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。

Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间，将不同任务统一为相同的任务范式，从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。

此外，“书生2.5”还创新性地引入了任务级别的稀疏激活机制，使其具备高效率的多任务协作能力。

在视觉主流图像分类数据集ImageNet上，该模型仅基于公开数据便达到90.1%的Top-1准确率。这是除谷歌与微软之外，唯一准确率超过90.0%的模型。值得一提的是，谷歌与微软均未公开模型及额外数据集。

除高精确度的语义理解能力外，“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上，取得了65.4的mAP。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

“书生2.5”在20余个不同场景不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

当前，“书生”还在持续学习、不断进步，致力于推动多模态多任务通用模型技术的突破，驱动通用人工智能技术的创新应用生态，为推动人工智能学术、产业发展做出贡献。

▎关于OpenGVLab▎

OpenGVLab致力于通用视觉模型的开源社区建设，开源项目覆盖数据、模型、评测基准全链路，为学术界和产业界的多模态通用模型研发提供坚实支撑。在数据方面，OpenGVLab构建了千万级超大规模精标注数据集，涵盖了图像分类、目标检测等视觉核心任务的标注，同时包括各类图像中的属性、状态等的精细标注，显著降低了数据采集成本。在模型方面，OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型，助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练，并供所有对人工智能技术感兴趣的人士自由体验。OpenGVLab还提供了多任务、多模态的通用视觉评测基准，可提供权威的评测结果，推动基于统一标准的公平和准确评测，加快通用视觉模型的产业化应用步伐。
通过开源社区建设，OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛，用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型，高效实现对长尾场景的覆盖，推动通用AI技术的规模化应用。

关键词：

上一篇：
下一篇：

精彩阅读

环球短讯！商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI
热点
今天，商汤科技发布多模态多任务通用大模型“书生（INTERN）2 5”。

【焦点热闻】900亿没白花微软确认必应已用上GPT-4：搜索优于谷歌
热点
微软宣布自家的新版必应搜索已经用上了GPT-4，过去五周中很多人体验的必应就是GPT-4加强过的。

消息称网易内部多部门试水AI提效，利用ChatGPT进行业务测试
热点
据深厂消息，近日，网易内部正在多个部门试水AI提效，利用ChatGPT进行业务测试。

OpenAI升级GPT-4，必应聊天机器人已升级使用GPT4技术
热点
OpenAI升级GPT-4，必应聊天机器人已升级使用GPT4技术。

天天快消息！Meta第二轮裁员10000名员工，冻结5000个职位招聘
热点
Meta第二轮裁员10000名员工，冻结5000个职位招聘。

当前时讯：OpenAI推出大型语言模型GPT-4 ，可以瞬间完成硕士论文
热点
OpenAI推出大型语言模型GPT-4，可以瞬间完成硕士论文。

每日速递：GPT-4发布，ChatGPT将迎来最大升级
热点
在SAT等绝大多数专业测试以及相关学术基准评测中，GPT-4的分数高于ChatGPT。

每日速讯：澜舟科技不到一年完成数亿元融资：打造语言大模型的生成式AI
热点
自创业以来，澜舟一直坚持自主技术创新，并以孟子预训练技术体系为基础，打造了孟子系列模型及服务。

全球焦点！自动续费，带来了什么
热点
近期，官方要求：自动续费提前5天提醒用户，提供便捷退订途径。

数字中国通信行业核心资产！电信运营商夯实数字经济底座，受益上市公司梳理
热点
中国联通近日发布2022年年报，信达证券表示，公司总营收增速创近九年新高，剔除非经营性损益后，净利润规模创上市新高。

财富

全球观速讯丨耐克、阿迪们也开始卖不动了？
资讯
耐克、阿迪们也开始卖不动了？,消费者正在对大众运动品牌感到厌倦。

环球速读：大量高管离职，风平浪静的苹果暗流涌动
资讯
大量高管离职，风平浪静的苹果暗流涌动,从公开信息来看，过去这半年多离职的高管已经涉及了苹果几乎所有主要业务，从核心的硬件、软件、服务、

全球今头条！年轻人的“榴莲自由”，让中间商赚麻了
资讯
年轻人的“榴莲自由”，让中间商赚麻了,榴莲的“真香”时刻。

融资丨打造语言大模型的生成式AI，「澜舟科技」完成数亿元融资
资讯
融资丨打造语言大模型的生成式AI，「澜舟科技」完成数亿元融资 ,澜舟科技宣布公司完成了Pre-A+轮融资

GPT-4发布！ChatGPT大升级！太太太太强了！
资讯
GPT-4发布！ChatGPT大升级！太太太太强了！,一觉醒来，万众期待的GPT-4，它来了！

当前热点-为了收购暴雪，微软反击索尼
资讯
为了收购暴雪，微软反击索尼,微软一转攻势，从涉嫌垄断变成反垄断先锋

全球快资讯：首发丨「新景智源」完成近2亿元人民币A+轮融资
资讯
首发丨「新景智源」完成近2亿元人民币A+轮融资,新景智源完成近2亿元人民币A+轮融资

环球热点评！救不活的东风，扶不起的二汽？
资讯
救不活的东风，扶不起的二汽？,作为本次汽车行业史诗级价格战的发起者，东风汽车其实已到“生死存亡”的时刻。

天天讯息：火锅店纷纷外摆，谁赔谁赚？
资讯
火锅店纷纷外摆，谁赔谁赚？,“今年的外摆，比以往来得更早一些”

小红书终于不再摇摆
资讯
小红书终于不再摇摆,从克制到加速，小红书的商业化今年将交出什么样的答卷？

MORE+ 资讯

全球观速讯丨耐克、阿迪们也开始卖不动了？

环球速读：大量高管离职，风平浪静的苹果暗流涌动

全球今头条！年轻人的“榴莲自由”，让中间商赚麻了

融资丨打造语言大模型的生成式AI，「澜舟科技」完成数亿元融资

GPT-4发布！ChatGPT大升级！太太太太强了！

当前热点-为了收购暴雪，微软反击索尼

全球快资讯：首发丨「新景智源」完成近2亿元人民币A+轮融资

环球热点评！救不活的东风，扶不起的二汽？

天天讯息：火锅店纷纷外摆，谁赔谁赚？

小红书终于不再摇摆

MORE+ 热点

环球短讯！商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI

【焦点热闻】900亿没白花微软确认必应已用上GPT-4：搜索优于谷歌

微软宣布自家的新版必应搜索已经用上了GPT-4，过去五周中很多人体验的必应就是GPT-4加强过的。

消息称网易内部多部门试水AI提效，利用ChatGPT进行业务测试

据深厂消息，近日，网易内部正在多个部门试水AI提效，利用ChatGPT进行业务测试。

OpenAI升级GPT-4，必应聊天机器人已升级使用GPT4技术

OpenAI升级GPT-4，必应聊天机器人已升级使用GPT4技术。

天天快消息！Meta第二轮裁员10000名员工，冻结5000个职位招聘

Meta第二轮裁员10000名员工，冻结5000个职位招聘。

当前时讯：OpenAI推出大型语言模型GPT-4 ，可以瞬间完成硕士论文

OpenAI推出大型语言模型GPT-4，可以瞬间完成硕士论文。

MORE+ 焦点

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨，苹果举行主题为超前瞻的秋季新品发布会，在此次发布会上，备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架提升新老显卡性能

Windows 12系统可能会在2024年到来，按照正常的节奏，其开发工作应该早已秘密进行。日前，有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息，一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap，旨在为盲人和视

2022年情况又要变了！华硕高管：今年PC恐怕要供过于求

这两年来，由于疫情导致的居家办公及远程教育需求爆发，一直在下跌的PC市场枯木逢春，2021年更是创下了2012年以来的最快增长，然而2022年情

垃圾佬的心头好！西数新款固态盘SN740曝光

对于DIY垃圾佬来说，散片、拆机件、工包……这些名词怕是并不陌生。本周，西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足，如果可以背靠巨头享受大树底下好乘凉的红利，那自然是皆大欢喜，没有这个福气，也大可凭借自己一步一个

MORE+ 智能

国内最火新能源中大型轿车数月订单就破10万

苹果iPhone备忘录还有隐藏功能可一键秒变扫描机

新能源汽车在我国异军突起预示着新能源汽车市场巨大增长潜力

苹果召开2022秋季新品发布会全新产品序列登场

中国大力发展新能源汽车产业绝对不会有错

智能家居进入我们生活使万物互联智能家居生活逐渐成为现实

亚马逊云科技助力念力科技打造云游戏解决方案实现全球化部署

特斯拉Semi卡车明年全新内饰谍照曝光：取消换挡拨杆

人的大脑相当于什么级别的CPU？超低功耗的神奇作品

如何“监视”作业本上的笔迹？这支笔告诉你答案

精彩推送

【焦点热闻】900亿没白花微软确认必应已用上GPT-4：搜索优于谷歌

环球短讯！商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI

为什么多啦a梦不会老_最后的三个结局你猜到了吗

环球速读：大量高管离职，风平浪静的苹果暗流涌动

全球观速讯丨耐克、阿迪们也开始卖不动了？

当前时讯：OpenAI推出大型语言模型GPT-4 ，可以瞬间完成硕士论文

天天快消息！Meta第二轮裁员10000名员工，冻结5000个职位招聘

消息称网易内部多部门试水AI提效，利用ChatGPT进行业务测试

每日速递：GPT-4发布，ChatGPT将迎来最大升级

OpenAI升级GPT-4，必应聊天机器人已升级使用GPT4技术

全球焦点！自动续费，带来了什么

每日速讯：澜舟科技不到一年完成数亿元融资：打造语言大模型的生成式AI

全球今头条！年轻人的“榴莲自由”，让中间商赚麻了

数字中国通信行业核心资产！电信运营商夯实数字经济底座，受益上市公司梳理

世界速递！明港吧百度贴吧_明港吧

融资丨打造语言大模型的生成式AI，「澜舟科技」完成数亿元融资

陀螺研究院XR行业应用案例集｜Leion Hey听语者增强现实眼镜在听力障碍群体中的应用

GPT-4发布！ChatGPT大升级！太太太太强了！

当前热点-为了收购暴雪，微软反击索尼

天天热讯:中国信通院数据安全“星熠”案例公布！StartDT奇点云入选“SDK产品优秀案例”

热消息：Web3时事速递：已成产业链的ETHDenver和余波不断的行业危机！

中国移动发布2022年及近期经营情况

环球热消息：OpenAI创始人回应马斯克批评：ChatGPT确实不应有偏向性

世界热议:政府工作报告已6次提及“数字经济” 领跑作用持续彰显

【全球聚看点】椒房

美国电信巨头AT&T遭数据泄露，殃及900万客户账户

全球观点：OpenAI公布GPT-4：可在考试中超过90%的人类

全球速递！三星手机在拍摄月亮方面存在“造假”情况

蓝标传媒将与微软开展基于OpenAI的技术产品合作，机器人写稿？

环球热点评！救不活的东风，扶不起的二汽？

全球快资讯：首发丨「新景智源」完成近2亿元人民币A+轮融资

天天讯息：火锅店纷纷外摆，谁赔谁赚？

世界今亮点！新百伦999（新百伦999）

暴利又“忽悠”的“儿童食品”，坑惨老母亲

小红书终于不再摇摆

今头条！董洁带货，救火小红书？

世界快看：铁总混改板块3月14日跌0.64%，一汽富维领跌，主力资金净流出1.01亿元

当前快播：通达股份: 关于开展远期外汇交易业务的公告

环球热讯:快讯2023-03-14 20:15:12

今日热门!“她力量”让世界更美好丨2023女性影响力峰会3月22日北京见

融资丨「艾美斐」完成B1轮融资，中博聚力领投

科技巨头持续血拼：微软豪掷数亿造ChatGPT超算，谷歌加急测试Big Bard

申请书结尾敬语格式_申请书结尾敬语为盼

焦点速讯：又一独角兽悄悄赴美IPO，估值近50亿美元，L2到L4全都要

当前快讯:拼多多海外突进，SHEIN打响反击第一枪

今亮点！GP很亢奋，LP很冷静

快报：知乎拥抱小说，问答平台的初心呢？

融资丨「福鑫科创」获5000万元天使轮融资，长岭资本独家投资

焦点短讯！融资丨「幻量科技」完成数千万元种子轮融资，红杉中国种子基金领投

焦点精选！笃实躬行是什么意思-笃行躬行是什么意思

融资丨「清越科技」完成数千万元A轮融资，一度资本领投

天天热文：融资丨「圣德医养」完成数亿元A轮融资，中国通用技术集团资本投资

AIGC如何改变Web3的未来？

天天快消息！九门是哪九门都是干嘛的_九门是哪九门

世界热消息：对话硅基智能何洋：腾讯追投两轮，数字人正站在风口上

滚动：电信运营商第五张网三个层面的基本关系分析

环球热资讯！被低估的战场：比亚迪、哪吒卷过了日系车

天天精选！年入83亿，这家工业品界的阿里即将赴美上市

世界快资讯丨融资丨医学研究大动物实验机构「美凤力」完成1亿元A轮融资

今日精选：探索下ChatGPT的可用场景

产权调换情况下，评估时点与补偿时间相差久远合理吗？

手机自动点触怎么办？手机连接电脑一直闪断？

360防火墙连不上路由器怎么回事?360防火墙路由器设置教程是什么？

主板b650和b550有什么区别？B550和B450买哪个？

信号屏蔽器都能屏蔽哪种信号？信号屏蔽器是不是屏蔽了信号？

手机密码公安局能解开吗？警察有权要求解锁手机密码吗？

蒸烫洗衣机好用吗？蒸汽洗衣机怎么工作的？

当前短讯！2023，抢占冰淇淋市场的最后一年

二手苹果电脑能买吗？二手苹果电脑值多少钱？

i5和i7的区别有多大？i5处理器和i7处理器区别是什么？

手机没声音如何恢复？手机外放没有声音怎么回事？

小红书正在删除照片？官方回应：只是在清理临时缓存

天天微资讯！【商界头条】汇丰以1英镑收购硅谷银行英国子公司；中国移动市值逼近贵州茅台；杭州加大对商业外摆的支持力度

微资讯！山石发声｜风暴眼中的ChatGPT，看NLPer怎么说？

家庭显示器推荐是什么？适合游戏办公显示器推荐？

环球快资讯丨GAN的反击：朱俊彦CVPR新作GigaGAN，出图速度秒杀Stable Diffusion

多少年轻人在用互联网巫术许愿？

环球快讯:加码直播电商，小红书奋力一搏能恰到饭吗？

天天快看点丨金融时报：库克力排众议于今年推出新头显设备；Envisics获超过5000万美元C轮融资

当前要闻：定档3月21日，AR领域新技术、新产品即将亮相，2023易现春季发布会前瞻

技术专家控诉ChatGPT：到处宣扬我死了，还伪造了一份讣告

焦点快看：植物胶黏剂

叮咚买菜背叛生鲜电商

车市降价虽凶狠，但千万别昏了头

天天新资讯：身为 ChatGPT 概念股，知乎却想做下一个晋江？

微博与B站，变现“难兄难弟”

女歌手卖烧烤年入百万，餐饮的钱真这么好赚？

每日消息!沙漠旅游的“生意”越来越好

在L3级高阶驾驶辅助应用层面奔驰再次奠定对友商的领先地位

开启一程和春天的约会——莫道时光早最是一年春满园

当前要闻：东风汽车不想倒在黎明前

【快播报】细分市场野蛮生长，梅见恐步江小白后尘

腾讯游戏，“迷失”自己

【世界独家】“最好的创业者定义最好的FA”，入行三年，他为什么能斩获十余家生物医疗独角兽？

【天天速看料】直播带货拉升股价，TVB要成为下一个东方甄选？

【新要闻】候选人公示！涉中广电移动2023年度广电5G号卡配送项目

【聚看点】聊天中emm什么意思_聊天中emm表达了什么意思

全球看点：考虑取消显示播放量，B站是怎么想的？

环球快看：360数科：守住了规模，却看不到增长

热头条丨回老家开咖啡店，中年职场危机的解药?