今日热搜:真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集

2023-04-23 09:26:02   来源:商业新知网

Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情,并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。


(资料图片仅供参考)

但Meta只是开源了LLaMA的权重,训练用到的数据集并没有开源出来,对于那些想从头开始训练LLaMA的从业者来说,目前还没有开源方案。

最近,由Ontocord.AI,苏黎世联邦理工学院DS3Lab,斯坦福CRFM,斯坦福Hazy Research 和蒙特利尔学习算法研究所的宣布开启 「红睡衣」(RedPajama)计划 ,旨在生成 可复现、完全开放、最先进的语言模型 ,即从零一直开源到ChatGPT!

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库: https://github.com/togethercomputer/RedPajama-Data

「红睡衣」开源计划总共包括三部分:

1. 高质量、大规模、高覆盖度的预训练数据集;

2. 在预训练数据集上训练出的基础模型;

3. 指令调优数据集和模型,比基本模型更安全、可靠。

目前红睡衣计划中的第一部分,即预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。

完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB,有条件、有网速的小伙伴可以开始搞起来了!

目前开发团队正在橡树岭领导计算设施(OLCF)的支持下开始训练模型,预计几周后即可开源。

通过OpenChatKit,研究人员已经收到了数十万条高质量的自然用户指令,将用于发布 RedPajama 模型的指令优化版本。

复刻LLaMA

2023年2月27日,Meta推出LLaMa并发布了相关论文。

论文链接: https://arxiv.org/pdf/2302.13971.pdf

LLaMa实际上是一组基础语言模型的统称,其参数范围从70亿到650亿不等,其中 LLaMA-13B(130亿参数)版本甚至在大多数基准测试中都优于1750亿参数的GPT-3 ;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下风。

和之前的大模型不同的是,LLaMa 完全使用「公开数据集」 就达到了SOTA,并不存在其他模型中「不可告人」的秘密,无需使用专用或只存在于虚空中的数据集。

具体使用的数据集和预处理操作如下。

English CommonCrawl-占比67%

使用CCNet pipeline对五个CommonCrawl dumps(2017-2020年)进行预处理,删除重复的行,并用fastText线性分类器进行语言分类,去除非英语页面,并用ngram语言模型过滤低质量内容。

还训练了一个线性模型来对维基百科中用作参考文献的页面与随机采样的页面进行分类,并去除未被分类为参考文献的页面。

C4-占比15%

在探索实验中,研究人员观察到使用多样化的预处理CommonCrawl数据集可以提高性能,所以将公开的C4数据集纳入我们的数据。

C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。

然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如

等)。

最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。

维基百科-占比4.5%

数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。

Gutenberg and Books3-占比4.5%

训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。

预处理操作主要是删除重复内容超过90%的书籍。

ArXiv-占比2.5%

通过处理arXiv的Latex文件将科学数据添加到训练数据集中,删除了第一节之前的所有内容,以及书目;还删除了.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。

Stack Exchange-占比2%

Stack Exchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。

分词器(Tokenizer)

根据SentencePiece的实现使用字节对编码(byte-pair-encoding,BPE)算法对数据进行分词,其中连续的数字被分割成单个数字。

最终整个训练数据集在分词后获得了大约1.4T的tokens,除了维基百科和图书数据外,其他的数据在训练期间只使用一次,总共进行了约两个epochs

关键词:

精彩阅读

关于Prompt Engineering你该了解啥?OpenAI应用研究负责人帮你梳理了

热点

随着ChatGPT、GPT-4等模型的兴起,人们对如何创建提示以获得想要的输出越来越感兴趣。

今日热搜:真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集

热点

StackExchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。

更懂业务的数智平台用友iuap 使能企业数智化_天天观热点

热点

用友BIP的iuap平台累积了用友35年服务数百万企业客户的应用实践,是更懂企业业务的数智平台。

每日聚焦:商汤AI遥感大模型,“智”悉万变让AI下沉“田间地头”

热点

作为第一产业,农业正在步入智能化技术驱动的全新发展阶段。

黑马入局!昆仑万维版ChatGPT「天工」通过自家程序员面试,首发就敢现场演示 环球短讯

热点

什么样的AI,能通过自家公司的程序员面试?刚刚出炉的国产大模型「天工」做到了。

升级数智化底座领先实践

热点

4月19日,用友BIP技术大会在北京隆重启幕。

马斯克将起诉微软,称其使用 Twitter 数据“非法”训练GPT,吃瓜网友:事情变得更有趣了! 天天看点

热点

埃隆·马斯克表示将对微软提起“诉讼”,理由是微软使用Twitter数据“非法”训练其产品。

谷歌或被抛弃!ChatGPT 引爆手机市场新一轮洗牌:Android 手机销冠三星30亿美元大单欲改投 Bing 今日热搜

热点

以NewBing为代表的AI竞争对手,正迅速成为谷歌搜索业务这25年来所面临的最大威胁。

赋能行业数智化 提供有温度有深度的服务,华为是如何做到的?-世界快讯

热点

华为服务的愿景就是给用户提供有深度、有温度的服务,持续领先,构建极致体验。

财富

苹果WWDC前瞻:混合现实为主 多款新MacBook将发布

资讯

苹果WWDC前瞻:混合现实为主多款新MacBook将发布,有望开启后iPhone时代。

环球今头条!围炉冰茶又火了,年轻人为何钟情围炉?

资讯

围炉冰茶又火了,年轻人为何钟情围炉?,模仿一种生活方式很难,打造“氛围感”却很容易。

谷歌大脑与DeepMind合二为一,为对抗OpenAI打造全新大模型 焦点

资讯

谷歌大脑与DeepMind合二为一,为对抗OpenAI打造全新大模型,AlphaGo之父当一把手,JeffDean改任首席科学家

环球精选!9.9元的咖啡,谁能玩得更久?

资讯

9 9元的咖啡,谁能玩得更久?,新的战场。

安徽临泉,正在召回年轻人的“人口第一大县”

资讯

安徽临泉,正在召回年轻人的“人口第一大县”,人口大县的重生

我在直播间“卖鱼”,一年卖出8个亿

资讯

我在直播间“卖鱼”,一年卖出8个亿,冰与火面前,国民菜的新出路。

投融资周报:全钒液流电池提供商融科储能融资超10亿元;慢性病与老年病药物研发商海森生物获3.15亿美元融资

资讯

投融资周报:全钒液流电池提供商融科储能融资超10亿元;慢性病与老年病药物研发商海森生物获3 15亿美元融资

环球看热讯:马云受聘港大荣誉教授;宝马MINI中国就“冰淇淋”事件再度致歉;电影《灌篮高手》票房突破2亿元丨邦早报

资讯

马云受聘港大荣誉教授;宝马MINI中国就“冰淇淋”事件再度致歉;电影《灌篮高手》票房突破2亿元丨邦早报,24

谊品“放弃”生鲜,转型批发部?

资讯

谊品“放弃”生鲜,转型批发部?,一位连锁零售企业老总不无可惜地表示,“谊品最大的错,退出生鲜,老虎自

【世界聚看点】投资健康,才是创业者最该坚持的“长期主义”

资讯

投资健康,才是创业者最该坚持的“长期主义”,所有的创业,到最后拼的都是精力

今日热搜:真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集

StackExchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。

更懂业务的数智平台用友iuap 使能企业数智化_天天观热点

用友BIP的iuap平台累积了用友35年服务数百万企业客户的应用实践,是更懂企业业务的数智平台。

每日聚焦:商汤AI遥感大模型,“智”悉万变让AI下沉“田间地头”

作为第一产业,农业正在步入智能化技术驱动的全新发展阶段。

黑马入局!昆仑万维版ChatGPT「天工」通过自家程序员面试,首发就敢现场演示 环球短讯

什么样的AI,能通过自家公司的程序员面试?刚刚出炉的国产大模型「天工」做到了。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个