当前速读:碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace为它吵了起来

2023-06-09 11:02:04   来源:商业新知网

大数据文摘授权转载自品玩

这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型,突然成为了hugging face“开源”大模型排行榜的第一名。

这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中,LLaMA的模型规模甚至更大,达到了65B——比Falcon-40B大出了50%。


(资料图片)

按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。

Hugging Face过去一直被认为是大模型领域GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单,被从业者给予了很高的参考价值。

按照Hugging Face方面表示,其整个榜单使用Eleuther AI Harness的评估框架,被分成四个标准:

25个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10个样本的尝试推理测试(HellaSwag)、5个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)

而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的instruct版本中,诚实性能力也跟上来了。

Falcon备受外界关注,原因主要有几点。

一方面,如果仅以这个榜单数据来看,Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内,但Falcon-instruct直接提升了3.4分。

另一方面,Falcon与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。

TII的背后则是阿布扎比先进技术研究委员会(ATRC),因此是阿联酋政府官方扶持技术创新项目。

而根据阿联酋通讯社的报道,Falcon-45B使用了1万亿个token进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于OpenAI GPT-3训练计算的75%,DeepMind Chinchilla人工智能的40%,谷歌PaLM-62B训练计算的80%。

阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B的出现:

“强化了阿联酋作为全球AI领导者的角色”。

目前来说,Falcon-40B虽然是开源大模型的第一名,但是和“不Open”的OpenAI相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon获得“开源大模型第一”其实也算是“捡了个漏”。

不过很快有从业者发推特质疑Hugging Face的评价体系。

有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉AI负责人、OpenAI元老级人物(founding member)Andrej Karpathy跟进评论:

“这就是我目前避免评论falcon的原因”。

Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家,对OpenAI的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉autopilot之父。

当他对hugging face的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。

果然hugging face联合创始人Thomas Wolf闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。

这其中诡异的点在于,hugging face的榜单不是一天发出的,Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后,却出现了两位对评价体系“不理解”、“不确定”的“外宾”。

看来硅谷还不是很适应来自中东的神秘科技力量,对这种“新鲜事物”条件反射地用审视的眼光去打量。

不过,Falcon-40B最大的争议或许不是来自于能力,而是来自于其对“开源”事业的“诚心”。

因为Falcon对商业化开源留了一个“后手”,虽然使用者原则上免费,但如果收入超过100万美金,依然需要缴纳10%的授权费用。

但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果falcon拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的“开源”。

大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。

而根据TII方面的消息,阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。

无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。

关键词:

精彩阅读

当前速读:碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace为它吵了起来

热点

一个名为Falcon40B的模型,突然成为了huggingface“开源”大模型排行榜

天天快消息!导航信息丨创新多点迸发!物联网重塑产业创新格局

热点

从感知、通信、平台到行业应用全链条呈现创新“超速效应”。

高考作文怎么写?AI大模型一较高下 头条焦点

热点

我仍在旅途中,我不知道它会在哪里结束。但是,我不再害怕旅途。我不再

恒信东方交流20230607|每日热讯

热点

目前全世界的3D模型技术有往几个方向发展,其中NeRF是Nvidia,谷歌,商

【WWDC 2023】MR交互篇,如何为眼睛和手设计交互?-快看

热点

眼睛和手是新的空间输入方式,它们可以让你以全新的方式与我们的平台上

广东电信:网络异常影响部分移动用户接听电话 正在抢修

热点

由于广东电信运营商系统故障,造成大批量在广东省区域的用户无法使用网

新消息丨5G-Advanced加持的万亿级产业升级机会来了!裸眼3D进入快车道

热点

5G 5G-Advanced打破了空间上的限制,带来了更广阔的移动范围。

20万!中国广电固话业务银行账户体系建设启动,加快商用步伐 世界播资讯

热点

6月5日,中国广电股份固话业务银行账户体系建设项目比选启动。

解读中国移动5G设备招标公告,国外厂商份额有望大幅提升!

热点

6月4日-6日,2023年中国国际信息通信展览会顺利举行,备受关注。

北大才女时隔9年再谈寒门学子,盘点其商业版图-今头条

热点

2014年刘媛媛以一篇寒门贵子的演讲,拿下了第二季超级演说家年度总冠军。

财富

丰田将在美密歇根州研发总部新建汽车电池实验室,投资额近5000万美元|天天微头条

资讯

丰田将在美密歇根州研发总部新建汽车电池实验室,投资额近5000万美元,

加拿大AI创企Cohere融资2.7亿美元,甲骨文英伟达参投

资讯

加拿大AI创企Cohere融资2 7亿美元,甲骨文英伟达参投,据报道,加拿大人

人类与ChatGPT合作设计采摘机器人

资讯

人类与ChatGPT合作设计采摘机器人,6月9日,荷兰代尔夫特大学和瑞士洛桑

【焦点热闻】抖音练拳,挥向美团

资讯

抖音练拳,挥向美团,美团正式对抖音宣战。

世界微速讯:林志颖复出代言小鹏,本人仍开特斯拉?官方回应:只是玩梗

资讯

林志颖复出代言小鹏,本人仍开特斯拉?官方回应:只是玩梗,6月6日以来

中国无人驾驶高速地铁项目在土耳其开工,为土耳其首个无人驾驶地铁项目

资讯

中国无人驾驶高速地铁项目在土耳其开工,为土耳其首个无人驾驶地铁项目

如果AI真的想杀人 当前关注

资讯

如果AI真的想杀人,AI和人类的战争才刚开始。

谷歌警告员工:多回办公室工作 否则将影响绩效考核

资讯

谷歌警告员工:多回办公室工作否则将影响绩效考核,据报道,谷歌今日更

热门看点:Niko Partners:预计到2027年中国游戏市场总收入将超过570亿美元

资讯

NikoPartners:预计到2027年中国游戏市场总收入将超过570亿美元,6月8日

天天快消息!导航信息丨创新多点迸发!物联网重塑产业创新格局

从感知、通信、平台到行业应用全链条呈现创新“超速效应”。

高考作文怎么写?AI大模型一较高下 头条焦点

我仍在旅途中,我不知道它会在哪里结束。但是,我不再害怕旅途。我不再

恒信东方交流20230607|每日热讯

目前全世界的3D模型技术有往几个方向发展,其中NeRF是Nvidia,谷歌,商

【WWDC 2023】MR交互篇,如何为眼睛和手设计交互?-快看

眼睛和手是新的空间输入方式,它们可以让你以全新的方式与我们的平台上

广东电信:网络异常影响部分移动用户接听电话 正在抢修

由于广东电信运营商系统故障,造成大批量在广东省区域的用户无法使用网

陕西未来3天“炎”值飙升 西安最高气温可达34℃|世界最新

华商网要闻频道是整合华商报媒体资源,为陕西用户提供24小时全面及时的

董家岭_关于董家岭的简介

1、《董家岭》是一本2022年山西人民出版社出版的图书,作者是王建川。

全球热门:龙岩土楼和漳州土楼的区别_龙岩土楼

1、田螺坑的住宿在下观景台的土楼茶园饭店一般都是60到80元一个房间(都

福建省福州市2023-06-06 18:37发布雷电黄色预警

一、福建省福州市天气预报1、闽清县气象台2023年06月06日18时37分继续

凉皮配黄瓜丝被罚款 冷食究竟怎么管?-天天关注

■ 观察家践行“轻微不罚”“初次不罚”,也是严格执法的重要内容

iphone5s闲置太久开不了机_苹果6开不了机怎么办

1、苹果6p恢复出厂设置后开不了机,可能系统已崩溃,建议恢复一下系统