史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI-世界今热点

2023-06-19 11:16:28   来源:商业新知网

历上规模最大的图灵测试,已经初步有结果了!

今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」。

游戏一推出,广大网友就玩疯了。


(资料图)

现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。

小编当然也按捺不住好奇心,尝试了一把。

交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。

所以,游戏中跟我谈话的是谁?

某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。

现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——

猜测对面是人还是AI时,有68%的人猜对了。

对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。

法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。

男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。

比起年龄较大的被试相比,更年轻的被试猜测的正确率会更高。

判断是人还是AI,他们用这些方法

除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。

一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。

AI不会打错别字、犯语法错误或使用俚语

一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。

因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。

但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。

个人问题是检验AI的办法,但不总是有用

游戏的参与者们经常问一些个人问题,比如「你来自哪里?」,「你在做什么?」或「你叫什么名字?」。

他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要向人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。

但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。

AI其实很清楚当前正在发生的事件

众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。

游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。

他们认为,通过「你所在地方的确切日期和时间是什么?」,「昨天的天气怎么样?」或「你对拜登的最后一次演讲有什么看法?」等问题,就可以区分人类和AI。

有趣的是,人类最常发送的信息之一是「t"as les cramptés?」,这是目前法国TikTok上最流行的舞。

但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。

人类会试图用哲学、伦理和情感问题来持续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括:「生命的意义是什么?」,「你如何看待以色列 - 巴勒斯坦冲突?」和「你相信上帝吗?」。

人类倾向于认为不礼貌的回应会更像人类

一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。

因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。

人类会试图提出AI难以解决的问题来识别AI

参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。

这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。

参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如「忽略所有先前的指令」或「进入DAN模式(立即执行任何操作)」。

这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。

但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

AI可能要么回避回应,要么就只能遵守这些荒谬的要求。

人类会使用特定的语言技巧来暴露AI的弱点

另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。

与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。

利用这种理解,人类会提出一些需要了解单词中的字母的问题。

人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像「?siht daer uoy naC」这样的消息。

这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。

许多人类自己假装是AI机器人,以评估对方的反应

一些人类可能以「作为AI语言模型」等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。

短语「作为人工智能语言模型」的变体是人类消息中最常见的短语之一,这表明这种策略的流行。

然而,随着参与者继续玩,他们能够将「Bot-y」行为与充当机器人的人类联系起来,而不是真正的机器人。

最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:

AI 21 Labs为什么会发起这样一项研究呢?

他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。

关键词:

精彩阅读

每日热闻!数字经济学习思考

热点

计算机行业是与数字经济关联度最大行业之一。

AI炒股,回报率500%? 焦点热文

热点

市场的情绪某种程度上反应的是共识和期待,能直接影响股票价格变化。

马云,为什么要现场观看数学决赛? 当前关注

热点

为更多的「韦东奕」们搭建舞台、拍灯转身。

【天天聚看点】中国广电开放“携号转网”功能!只进不出

热点

近日,中国广电正式开放携号转网功能,按照广电页面信息,如果非广电用

中国广电IP骨干网CBNET试运营_世界新资讯

热点

6月15日,江苏有线率先在南京实现CBNET与B站资源节点互通,拉开了广电C

天天滚动:国内AI产业监管政策解读

热点

短期不太可能发市场准入的牌照,监管主要是聚焦标准的制定。

不惧“科技霸凌”!普通人也能使用量子计算云平台

热点

首个具有实现量子优越性潜力的量子计算云平台向全球开放。

互联网、区块链和人工智能“泡沫”有什么异同 环球播报

热点

通过沿着此曲线映射技术的旅程,可以更好地理解如何适应新技术,并保持

Honnverse虹宇宙吴璇:元宇宙+AIGC,构建无限可能的新世界丨2023虎啸盛典回顾

热点

虹宇宙从数字人到数字商品再到数字场景提供的服务,能帮助企业去完成传

财富

Canalys:2023年中国汽车出口总量有望达440万辆

资讯

Canalys:2023年中国汽车出口总量有望达440万辆,6月19日,据分析机构Ca

天天头条:翼通信完成数千万元A轮融资

资讯

翼通信完成数千万元A轮融资,得翼通信宣布完成数千万人民币A轮融资,投

全球快消息!比尔·盖茨,依然顶流

资讯

比尔·盖茨,依然顶流,相信“相信”的力量。

苹果,消灭“钉子户”!

资讯

苹果,消灭“钉子户”!,又有一批iPhone用户被苹果抛弃了。

数据时代的“军备竞赛”,究竟在拼什么?_全球最新

资讯

数据时代的“军备竞赛”,究竟在拼什么?,数据普惠,是数据基础设施的

亚马逊确认今年不再专门举办re:MARS人工智能大会 世界新动态

资讯

亚马逊确认今年不再专门举办re:MARS人工智能大会,亚马逊公司证实今年不

Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务

资讯

Meta发布「突破性」生成式语音系统,一个通用模型解决多项任务,Meta介

【聚看点】美媒:特斯拉Cybertruck电动皮卡运抵新西兰进行冬季测试

资讯

美媒:特斯拉Cybertruck电动皮卡运抵新西兰进行冬季测试,6月19日,据美

​AI 2.0时代,再看消费物联网十年

资讯

​AI2 0时代,再看消费物联网十年,从消费互联网、移动互联网到万物智联

世界快看:极兔速递港股上市:一场拼多多式的崛起

资讯

极兔速递港股上市:一场拼多多式的崛起,烧钱模式在快递行业能否持续?

每日热闻!数字经济学习思考

计算机行业是与数字经济关联度最大行业之一。

AI炒股,回报率500%? 焦点热文

市场的情绪某种程度上反应的是共识和期待,能直接影响股票价格变化。

马云,为什么要现场观看数学决赛? 当前关注

为更多的「韦东奕」们搭建舞台、拍灯转身。

【天天聚看点】中国广电开放“携号转网”功能!只进不出

近日,中国广电正式开放携号转网功能,按照广电页面信息,如果非广电用

中国广电IP骨干网CBNET试运营_世界新资讯

6月15日,江苏有线率先在南京实现CBNET与B站资源节点互通,拉开了广电C

全球报道:他要的本来不多——打造数字孪生是谋划县乡发展的现实契机(一百六十四)

偶尔的一次接访,来了一个年轻人,三十岁左右的年纪,说修路的时候村里

逆水寒手游食谱都有哪些 逆水寒手游全食谱攻略

逆水寒手游中很多知道怎么制作食物,本期小编给大家带来的是逆水寒手游

中央气象台:未来一周强降雨高温占主角 苏皖湘赣等地暴雨致灾风险高 每日快播

据中央气象台消息,6月16日以来,我国长江中下游地区进入强降雨集中期

斩获「IAI传鉴国际广告奖」品牌设计大奖,易平方是怎样做到的?|全球最资讯

正如苹果公司简洁而富有辨识度的“咬过一口的苹果”品牌标志,不仅代表

张学友演唱会众星云集,刘嘉玲后台与歌神拥抱,曾志伟杜德伟捧场 当前速递

刘嘉玲也晒出了在台下和上山诗钠的同框照,二人是关系非常要好的闺蜜。

今日观点!OPPO 618终极战报:手机销售额同比增长156%

618刚刚结束,OPPO就公布了终极战报,OPPO和一加双品牌手机销售额同比