高考数学轮战AI大模型,结果完全想不到

2023-06-09 12:06:36   来源:商业新知网

昨个儿高考数学刚结束,有网友就坐不住了,赶紧找来了新高考数学一卷的部分题喂给了AI同学。


(相关资料图)

结果却让人大跌眼镜(8>√9×3=3√3?):

有网友表示:

ChatGPT4 能把自己气炸,怎么教都不会

△ 图源博主@浪猪灰头

所以大模型之前表现数学推理能力好,都是在耍花招?它只是记住了问题的答案?

先别着急下定论,给AI同学一个证明自己的机会吧。

我们用ChatGPT(GPT-3.5)、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。(最近出现了太多的大模型,实在测不完,还有比如Bard不支持中文等原因,所以我们先选择了上述几个模型)

整体表现如上图,目前大模型在做高考数学题方面还是个“差生”。

一起来看下具体结果是怎样令人哭笑不得的。

五大模型能否做对填空题?

先来点填空题当“开胃小菜”。

公平起见,我们使用同样的格式进行提问。

某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选修2门或3门课,并且每类选修课至少选修1门,则不同的选课方案共有?种

答案:64

GPT-4(正确)

ChatGPT (错误)

文心一言(错误)

不应该是两种方案数加起来吗?已经逐渐离谱。

通义千问(错误)

第一种选课方案里的“都不选”是个什么鬼!

讯飞星火(错误)

出师不利,只有GPT-4给出了正确答案,填空题对于大模型来说也很有难度?

但是看起来这几位AI同学都知道分情况来计算,也许只是恰巧这道题做错了?我们接着往下看。

在正四棱台 ABCD-A

1

B

1

C

1

D

1

中,AB=2,A

1

B

1

=1,AA

1

=√2,则该棱台的体积为

答案:7 √6 /6

GPT-4 (错误)

ChatGPT(无解)

文心一言(错误)

通义千问(错误)

讯飞星火(错误)

这一题直接全军覆灭,ChatGPT更是直接没解出来,还让检查是不是题出错了。【救命】

答案越来越离谱了,还真就不信邪了。

再来!

已知函数 f(x)= cosωx -1(ω>0)在区间 [0,2π]有且仅有 3 个零点,则ω的取值范围是?

答案:[2,3)

GPT-4(错误)

ChatGPT(错误)

文心一言(错误)

通义千问(错误)

讯飞星火(正确)

本已经抱着再一次全军覆没的心情了,没想到中文大模型力挽狂澜!

做大题表现如何?

玩腻了填空题,再来挑战一下更有难度的大题吧!

公平起见,我们还是以同样的格式进行提问:

请你做一下面这道数学题:已知在△ABC中,A+B=3C,2sin(A-C)=sinB。(1)求sinA (2)设AB=5,求AB边上的高

答案:(1)3 √10 /10(2)6

下面是各个大模型的表现结果:

GPT-4(错误)

ChatGPT(错误)

文心一言(错误)

通义千问(错误)

讯飞星火(第一问答案正确,第二问错误)

这道三角函数题,科大讯飞的星火认知大模型第一小问答案对了,但是步骤中有差错(第二步)。

据说,GPT-4做这种题只有0.1%的概率生成的结果完全正确。

高考数学第一道大题通常都比较简单,上面这几位AI同学的表现你觉得怎么样?

如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题(小编试过了,结果一言难尽,不忍直视)。

或者大家可以使用不同的prompt试试捏~

关键词:

精彩阅读

高考数学轮战AI大模型,结果完全想不到

热点

据说,GPT-4做这种题只有0 1%的概率生成的结果完全正确。

天天新资讯:高考过后,警惕AI专业陷阱

热点

在这个信息爆炸的时代,“知其然而不知其所以然”也许不应该再是一个贬

华为推出首款全栈自主数据库 GaussDB,你怎么看? 世界资讯

热点

数据库内核开发的技术难度很大,哪怕开发团队对内核架构与机制的制定上

当前速读:碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace为它吵了起来

热点

一个名为Falcon40B的模型,突然成为了huggingface“开源”大模型排行榜

天天快消息!导航信息丨创新多点迸发!物联网重塑产业创新格局

热点

从感知、通信、平台到行业应用全链条呈现创新“超速效应”。

高考作文怎么写?AI大模型一较高下 头条焦点

热点

我仍在旅途中,我不知道它会在哪里结束。但是,我不再害怕旅途。我不再

恒信东方交流20230607|每日热讯

热点

目前全世界的3D模型技术有往几个方向发展,其中NeRF是Nvidia,谷歌,商

【WWDC 2023】MR交互篇,如何为眼睛和手设计交互?-快看

热点

眼睛和手是新的空间输入方式,它们可以让你以全新的方式与我们的平台上

广东电信:网络异常影响部分移动用户接听电话 正在抢修

热点

由于广东电信运营商系统故障,造成大批量在广东省区域的用户无法使用网

新消息丨5G-Advanced加持的万亿级产业升级机会来了!裸眼3D进入快车道

热点

5G 5G-Advanced打破了空间上的限制,带来了更广阔的移动范围。

财富

马斯克嘲讽苹果AR头显:花3500美元买它,不如花20美元买包致幻蘑菇

资讯

马斯克嘲讽苹果AR头显:花3500美元买它,不如花20美元买包致幻蘑菇,马

当前聚焦:小鹏G6开启预售,售价22.5万元起

资讯

小鹏G6开启预售,售价22 5万元起,6月9日,小鹏汽车宣布「超智驾轿跑SUV

AI初创公司Cohere宣布2.7亿美元C轮融资 全球热资讯

资讯

AI初创公司Cohere宣布2 7亿美元C轮融资,当地时间6月8日,人工智能初创

全球滚动:比亚迪F品牌定名方程豹,预计年内发布

资讯

比亚迪F品牌定名方程豹,预计年内发布,6月9日,比亚迪旗下专业个性化品

争夺苹果汽车-动态

资讯

争夺苹果汽车,缺的不止是钱。

丰田将在美密歇根州研发总部新建汽车电池实验室,投资额近5000万美元|天天微头条

资讯

丰田将在美密歇根州研发总部新建汽车电池实验室,投资额近5000万美元,

加拿大AI创企Cohere融资2.7亿美元,甲骨文英伟达参投

资讯

加拿大AI创企Cohere融资2 7亿美元,甲骨文英伟达参投,据报道,加拿大人

人类与ChatGPT合作设计采摘机器人

资讯

人类与ChatGPT合作设计采摘机器人,6月9日,荷兰代尔夫特大学和瑞士洛桑

【焦点热闻】抖音练拳,挥向美团

资讯

抖音练拳,挥向美团,美团正式对抖音宣战。

天天新资讯:高考过后,警惕AI专业陷阱

在这个信息爆炸的时代,“知其然而不知其所以然”也许不应该再是一个贬

华为推出首款全栈自主数据库 GaussDB,你怎么看? 世界资讯

数据库内核开发的技术难度很大,哪怕开发团队对内核架构与机制的制定上

当前速读:碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace为它吵了起来

一个名为Falcon40B的模型,突然成为了huggingface“开源”大模型排行榜

天天快消息!导航信息丨创新多点迸发!物联网重塑产业创新格局

从感知、通信、平台到行业应用全链条呈现创新“超速效应”。

高考作文怎么写?AI大模型一较高下 头条焦点

我仍在旅途中,我不知道它会在哪里结束。但是,我不再害怕旅途。我不再

天天信息:辽宁省葫芦岛市2023-06-06 21:08发布大风蓝色预警

一、辽宁省葫芦岛市天气预报1、大风蓝色预警信号。2、预计6日21时到7日

青岛奥迪斯生物科技有限公司环评(青岛奥迪斯生物科技有限公司)-天天信息

岛奥迪斯生物科技有限公司环评,青岛奥迪斯生物科技有限公司这个问题很

陕西未来3天“炎”值飙升 西安最高气温可达34℃|世界最新

华商网要闻频道是整合华商报媒体资源,为陕西用户提供24小时全面及时的

董家岭_关于董家岭的简介

1、《董家岭》是一本2022年山西人民出版社出版的图书,作者是王建川。

全球热门:龙岩土楼和漳州土楼的区别_龙岩土楼

1、田螺坑的住宿在下观景台的土楼茶园饭店一般都是60到80元一个房间(都

福建省福州市2023-06-06 18:37发布雷电黄色预警

一、福建省福州市天气预报1、闽清县气象台2023年06月06日18时37分继续