看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”

2023-05-04 08:40:38   来源:创业邦

阻止大模型出口成脏。


(资料图)

编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者:萧箫,创业邦经授权发布。

大模型们胡说八道太严重,英伟达看不下去了。

他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。

这个新工具名叫“护栏技术”(NeMo Guardrails),相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。

一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。

另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。

现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍,目前NeMo Guardrails一共提供三种形式的护栏技术:

话题限定护栏(topical guardrails)、对话安全护栏(safety guardrails)和攻击防御护栏(security guardrails)。

话题限定护栏,简单来说就是“防止大模型跑题”。

大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。

对话安全护栏,指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;

另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病毒APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。

所以,这样的护栏要如何打造?

如何打造一个大模型“护栏”?

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说,一个护栏应当包括三方面的内容,即格式规范(Canonical form)、消息(Messages)和交互流(Flows)。

首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。

例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。

然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:

最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:

一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。

具体工作流程如下:首先,将用户输入转换成某种格式规范(canonical form),据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。

类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:

目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们,可以试一试了~

开源地址:

https://github.com/NVIDIA/NeMo-Guardrails

参考链接:

https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

关键词:

精彩阅读

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”

资讯

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”,阻止大模型出口成脏。

幻觉?马斯克TruthGPT也搞不定,OpenAI联合创始人直言很复杂

资讯

幻觉?马斯克TruthGPT也搞不定,OpenAI联合创始人直言很复杂,OpenAI如何打击幻觉?

Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?-世界热点

资讯

Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?,华尔街的短期思维影响了VC甚至天使投资人,所有人

【聚看点】疯狂的炸串,还能火多久?

资讯

疯狂的炸串,还能火多久?,炸串品类仍然拥有不错的前景,但毋庸置疑的是,蒙眼狂奔的时代已经过去。

新势力无奈破产,富士康喜提造车工厂一座

资讯

新势力无奈破产,富士康喜提造车工厂一座,美国造车新势力破产,竟然怪富士康?

“跟风”开淄博烧烤,赚了还是赔了?

资讯

“跟风”开淄博烧烤,赚了还是赔了?,在关注与考验面前,他们有的手忙脚乱,有的积极复盘。淄博烧烤热,给

特斯拉Model 3、Model Y涨价;IBM计划用 AI 取代 7800 个岗位;科学家开发AI系统将意念转成文字丨邦早报

资讯

特斯拉Model3、ModelY涨价;IBM计划用AI取代7800个岗位;科学家开发AI系统将意念转成文字丨邦早报,24小时创投大事

王传福的40条思考:一切“技术壁垒”都是纸老虎

资讯

王传福的40条思考:一切“技术壁垒”都是纸老虎,只有掌握核心技术,企业才能在激烈的市场竞争中脱颖而出。

快讯:五一办婚礼有多贵?

资讯

五一办婚礼有多贵?,谁能逃过“婚礼税”?

陆奇的大模型世界观

资讯

陆奇的大模型世界观,这个时代跟淘金时代很像,如果你那个时候去加州淘金,一大堆人会死掉,但是卖勺子、卖

财富

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”

资讯

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”,阻止大模型出口成脏。

幻觉?马斯克TruthGPT也搞不定,OpenAI联合创始人直言很复杂

资讯

幻觉?马斯克TruthGPT也搞不定,OpenAI联合创始人直言很复杂,OpenAI如何打击幻觉?

Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?-世界热点

资讯

Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?,华尔街的短期思维影响了VC甚至天使投资人,所有人

【聚看点】疯狂的炸串,还能火多久?

资讯

疯狂的炸串,还能火多久?,炸串品类仍然拥有不错的前景,但毋庸置疑的是,蒙眼狂奔的时代已经过去。

新势力无奈破产,富士康喜提造车工厂一座

资讯

新势力无奈破产,富士康喜提造车工厂一座,美国造车新势力破产,竟然怪富士康?

“跟风”开淄博烧烤,赚了还是赔了?

资讯

“跟风”开淄博烧烤,赚了还是赔了?,在关注与考验面前,他们有的手忙脚乱,有的积极复盘。淄博烧烤热,给

特斯拉Model 3、Model Y涨价;IBM计划用 AI 取代 7800 个岗位;科学家开发AI系统将意念转成文字丨邦早报

资讯

特斯拉Model3、ModelY涨价;IBM计划用AI取代7800个岗位;科学家开发AI系统将意念转成文字丨邦早报,24小时创投大事

王传福的40条思考:一切“技术壁垒”都是纸老虎

资讯

王传福的40条思考:一切“技术壁垒”都是纸老虎,只有掌握核心技术,企业才能在激烈的市场竞争中脱颖而出。

快讯:五一办婚礼有多贵?

资讯

五一办婚礼有多贵?,谁能逃过“婚礼税”?

陆奇的大模型世界观

资讯

陆奇的大模型世界观,这个时代跟淘金时代很像,如果你那个时候去加州淘金,一大堆人会死掉,但是卖勺子、卖

你做好与AI一起相处了吗?

在我们的读书群,我写下AI不只是聊天工具,甚至不只是效率工具,它将是一种有智慧的生命。

中国链根服务| 城市产业COM(上)

区块链在所有的学科上增加了一个或一组类似“科学”的属性,让各个传统学科变得更加健壮。

天天快讯:文心一言满月就「上班」:企业服务生产力拉满,演示现场人挤人

文心一言“满月”之际,百度召开技术交流会,拿出这样的成绩单:完成4次迭代,大模型推理成本降为原来十分

阿里云“三板斧”开启新周期

阿里云的新周期也许真的来了。

快报:Meta从微软挖来芯片高管,专注硬件设备开发定制芯片

Meta从微软挖来芯片高管,专注硬件设备开发定制芯片。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个