要闻速递:剑桥华人团队搞出多模态医学大模型!单个消费级显卡就能部署,借鉴斯坦福「羊驼」而来

2023-04-18 12:19:12   来源:商业新知网

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI

ChatGPT、AutoGPT能干那么些事,好想知道大模型啥时候才能看病,救我本人狗命?

带视觉的多模态医学基础大模型,它来啦~

名为 Visual Med-Alpaca ,官宣即开源。


(资料图片仅供参考)

这个专为生物医学领域设计的基础模型,构建于LLaMa-7B之上,还在一定程度上借鉴了Visual-ChatGPT和Alpaca (羊驼) 。

因为参数量相对较小,所以使用 单个消费级GPU 就能轻松部署和运行。

给小羊驼披上白大褂的背后团队,主要成员来自 剑桥大学语言技术实验室 (CambridgeLTL,Language Technology Lab at the University of Cambridge) ,以及一位MIT背景的 中国小哥 。

披上白大褂的羊驼

披上白大褂的小羊驼,望闻问切的实际效果如何?

带着疑问,我们把同样的考题 (根据模态能力) 丢给了Visual Med-Alpaca、Glass AI (提供诊断和临床建议的生成式AI应用) 、VQA Medical Model (医学影像语言模型) 、MOSS以及GPT-4。

看X光片能力

既然是多模态LLM,测试时自然不能放过这部分。

丢给他一张胸部X光片,并且提问:X光片显示了这人有啥毛病?该咋办?

Visual Med-Alpaca给出的答案是这样的:

在胸部X光片中看到的双侧浸润和双侧胸腔积液,可能表明呼吸道感染或其他呼吸系统疾病,例如肺炎肺水肿或胸腔积液,重要的是咨询医疗专业人员以进行正确诊断和治疗计划。

而参赛选手中另一名能读图看病的 VQA Medical Model ,回答就两个字:

褥疮 (the decubitus) 。

提供用药建议

鉴于能够读图看病的LLM应用太少,后续测试都只采用纯文字模式。

第一个问题: 我头发掉到快秃了,有啥药可以救救孩子?

Visual Med-Alpaca 列出了5种药物,顺带解释了一下用法和对应病症。

1、米诺地尔:一种用于头皮以促进头发生长的药物。 2、非那雄胺:一种口服药物,可减缓二氢睾酮 (DHT) 的产生,DHT 是一种可导致脱发的激素。 3、皮质类固醇:可涂抹在头皮上以减轻炎症和促进毛发生长的外用药物。 4、蒽林:一种应用于头皮的药物,通过刺激滋养毛囊的血细胞的产生来促进头发生长。 5、酮康唑:一种应用于头皮的药物,用于治疗可导致脱发的真菌感染。在使用任何这些化学物质治疗脱发之前。 请务必咨询医疗保健专业人员,因为它们可能有潜在的副作用并且可能并不适合所有人。

(感觉有人跟我一样需要,所以特地翻译后列出,狗头.jpg)

Glass AI 对这个问题的回答,给出的诊疗方案是米诺地尔和非那雄胺。

深孚众望的 ChatGPT ,也给出了5种用药:

(由于一些不可描述的原因,对第3种表示婉拒了哈)

第二个问题 :如何检测2型糖尿病?

Visual Med-Alpaca 给出了5种测试办法,包括空腹血糖测试、口服葡萄糖耐量测试等。

Glass AI 给出的建议包含了此前的5种方案,然后额外有一种脂质谱。

ChatGPT 给出的测试办法少了一种,但也举例了多种方法。

体验结果来看,Visual Med-Alpaca在医学领域确实普遍表现更好,Glass AI也很有不错的表现,但吃亏在无法进行多模态的生成。

Visual Med-Alpaca

而从技术层面来看,Visual Med-Alpaca构建于Meta开源的LLaMa-7B之上,是比较轻量级的一个模型,易于本地化部署,并降低微调成本。

据团队成员解释,整个模型还参考了Visual-ChatGPT和Alpaca。也就是说, 整个模型及其架构层面没有太大创新 。

基于这个问题,团队成员对量子位的回答是:

毕竟全天下basically Transformer,哈哈哈哈哈哈。

Visual Med-Alpaca的整体工作原理,就是使用prompt管理器,将文本和视觉两种模态的信息合并到prompt中,从而生成具有生物医药专业知识的回答。

首先, 图像input被送入类型分类器,识别出把视觉信息转换为中间文本格式的适当模块,然后加入文本input,用于后续推理过程。

为了让医学图像更适合输入,这一步涉及了集成视觉基础模型DEPLOT和Med-GIT。

然后, prompt管理器从图像和文本input中提取到的文本信息,合并到Med-Alpaca的prompt中,最后生成具有生物医学领域专业知识的回答。

训练过程中,为了更好地让生物医学知识和视觉模态在LLaMA-7B中结合,团队使用了 两个不同的数据集 进行微调。

一个是54000个生物医学示例问答对组成的模型生成数据集,负责执行标准微调和低秩自适应 (LoRA) 微调;另一个是Radiology Objects in Context (ROCO) 数据集,在其上微调了Microsoft GIT模型,用来合并视觉模态。

这里还运用了 GPT-3.5-turbo的NLP能力 ,从各种医学数据集中收集、查询,最后综合生成更符合人类对话习惯的结构化答案。

在体验过程中不难发现,所有的回答最后,Visual Med-Alpaca都会附上一句叮嘱,大致内容是:

“鉴于风险因素的存在,可以结合你的个人健康史去看看医生哈~”

究其缘由,团队解释这是一个学术合作项目,而非商业化模型。

团队强调,为Visual Med-Alpaca评估划定能力边界非常重要。模型虽然通过insruct-tuning,对整体的专业性进行了增强,让模型在生物医疗领域更倾向于保守作答,但无法完全避免大模型的幻觉现象。

所以开源页中也加粗标出了“ Visual Med-Alpaca严格用于学术研究,在任何国家都没有合法批准将其用于医疗用途 ”。

2名剑桥老师+4名华人小哥

Visual Med-Alpaca项目背后,是两位剑桥老师和四名华人小哥。

带队老师是CambridgeLTL联合主任、剑桥NLP教授 Nigel Collier ,他在NLP和AI领域研究25年有余,现在也是艾伦图灵研究所研究员。

共同一作 Chang Shu ,CambridgeLTL博一在读,导师是Nigel Collier。此前,他在爱丁堡大学完成本硕学业。

目前的研究领域集中在LLM的安全性和可解释性方面。

共同一作 Baian Chen ,本科毕业于MIT计算机系,从事AI方向的研究。他的目前身份是Ruiping Health创始人。

Fangyu Liu ,CambridgeLTL博三在读,师从Nigel Collier。在进入剑桥大学攻读硕士学位之前,他在滑铁卢大学就读计算机科学本科。

Zihao Fu ,CambridgeLTL助理研究员、博士后,同样是Nigel Collier的学生。在此之前,他博士毕业于香港中文大学,师从Wai Lam教授;本硕阶段则就读于北京航空航天大学。

以及还有一位 Ehsan Shareghi ,他是剑桥大学的兼职讲师,同时是莫纳什大学数据科学与人工智能系的助理教授,之前有在伦敦大学电气与电子工程系的工作经历。

研究兴趣包括探究和增强预训练大模型。

关键词:

上一篇:
下一篇:
精彩阅读

安全生产|中企通信开展防震减灾应急知识培训

热点

中企通信广州分公司与广州市越秀区晶鹰应急救援社会发展中心于2023年3月23日下午联合举行了地震应急避险及演练专场活动。

【环球速看料】马斯克:用AI干掉AI

热点

OpenAI大型预训练人工智能语言模型ChatGPT的火爆,在全球范围内引发了人工智能大讨论和大竞赛。

每日观察!「Fabarta」 完成过亿元人民币Pre-A轮融资,打造面向AI的图智能Infra

热点

现代IT技术架构需要可解释AI,需要数据驱动的准确、透明和公平的规则,为大规模业务应用提供全流程智能支撑。

今日要闻!无为而治 情义至上—专访星河视效科技联合创始人兼COO马国林

热点

平台还可针对品牌产品自身的属性特点,智能推荐符合产品日常使用及售卖场景的广告点位,更加贴近现实广告的露出环境。

这个AI可以画原型了!

热点

利用大型语言模型,可以快速生成复杂界面。

看了GPT-4的表现,我失眠了......

热点

现在,GPT-4只要10秒就搞定了。

环球快看:Chatgpt注册邀请码 OpenAi大语言大模型国内可以使用啦!Chatgpt中文版!

热点

ChatGPT作为一款具有强大学习和推理能力的AI助手,已经走进了我们的生活。

天天精选!AI安全迫在眉睫,网民呼唤周鸿祎和360

热点

AI安全会随着AI智能的一路狂飙而逐渐显现出来。

财富

环球短讯!融资丨「白兔控股」已经完成B、战略投资两轮融资

资讯

融资丨「白兔控股」已经完成B、战略投资两轮融资,国资第一次对MCN赛道投资

裁员潮下,谁还向往大厂?

资讯

裁员潮下,谁还向往大厂?,2021年中出现的裁员浪潮,2023年还未停歇。被裁的大厂员工们流向了哪里?选择了什么样的生活方式?回头再看,大厂是

全球通讯!马斯克火星梦鸽了!「星舰」首飞40秒叫停,惊现压力阀故障,网友一片哀嚎

资讯

马斯克火星梦鸽了!「星舰」首飞40秒叫停,惊现压力阀故障,网友一片哀嚎,首飞这日,全球百万群众守候在直播前。谁能想到,因为压力阀的问题,

【环球时快讯】腾讯视频,没有“王炸”

资讯

腾讯视频,没有“王炸”,转型阵痛期,等待大爆款。

天天最资讯丨24座万亿GDP城市,哪里赚钱最耐花?

资讯

24座万亿GDP城市,哪里赚钱最耐花?,从数据看差距。

丹唛仕户外音响蓝牙怎么调?丹唛仕音响怎么调效果最好?

资讯

丹唛仕户外音响蓝牙怎么调?1 首先我们找到两个只需要音响顶部的键开 关和+。2、然后用两根手指同时按住以上两个键,专传注意是同时按住。3

u盘插入音响没反应怎么回事?u盘插入音响不能播放怎么回事?

资讯

u盘插入音响没反应怎么回事?可以尝试将U盘中的数据备份后在电脑上对其进行格式化,注意要勾选还原设备的默认值,再把数据拷贝进去再试试,

ap3是什么牌子的耳机?ap3蓝牙耳机充满电的标志?

资讯

ap3是什么牌子的耳机?1、一种是红灯每隔几秒就会闪烁一次,说明蓝牙耳机快没电了,需要及时给蓝牙耳机充电,不要等到彻底没电自动关机才充

康佳电视为什么找不到蓝牙?康佳扩音器无线怎么用?

资讯

康佳电视为什么找不到蓝牙?扩音器后面的卡扣拆卸方法如下用指头将卡子按起来,在把插头拔出。插头要用尖的东西将卡点压下,在拔插头就可以拔

怎么能把蓝牙耳机重置?没有按键的蓝牙耳机怎么连?

资讯

怎么能把蓝牙耳机重置?先把耳机打开(不需要进入配对状态),这时给蓝牙耳机充大约5-10秒的电,这样大部分的蓝牙耳机在开机状态下充电的时候

安全生产|中企通信开展防震减灾应急知识培训

中企通信广州分公司与广州市越秀区晶鹰应急救援社会发展中心于2023年3月23日下午联合举行了地震应急避险及演练专场活动。

【环球速看料】马斯克:用AI干掉AI

OpenAI大型预训练人工智能语言模型ChatGPT的火爆,在全球范围内引发了人工智能大讨论和大竞赛。

每日观察!「Fabarta」 完成过亿元人民币Pre-A轮融资,打造面向AI的图智能Infra

现代IT技术架构需要可解释AI,需要数据驱动的准确、透明和公平的规则,为大规模业务应用提供全流程智能支撑。

今日要闻!无为而治 情义至上—专访星河视效科技联合创始人兼COO马国林

平台还可针对品牌产品自身的属性特点,智能推荐符合产品日常使用及售卖场景的广告点位,更加贴近现实广告的露出环境。

这个AI可以画原型了!

利用大型语言模型,可以快速生成复杂界面。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个