丰色 发自 凹非寺
量子位 | 公众号 QbitAI
Meta“羊驼” (LLaMA) 的开源 可商用 复现品OpenLLaMA发布重大更新:
(相关资料图)
在 1T token 上训练出来的 130亿 参数版本现已正式上线。
至此,这一训练量和原版羊驼已完全一致。
与此同时,之前发布的70亿以及30亿参数版本也完成了1T token的训练,并发布PyTorch和JAX权重。
可谓“一家人整整齐齐”。
性能测试显示,OpenLLaMA在多项任务中的表现 都与原始LLaMA相当 ,并且不乏超越的情况。
一个彻底开源且供商用的LLaMA竞品家族就此诞生了。
目前,OpenLLaMA在GitHub上的标星数已近5k。
重训“羊驼”,最香替代品全面开放商用
OpenLLaMA是UC伯克利的博士生 Hao Liu 发起的项目 (Xinyang Geng拥有同等贡献,也是该校博士生) 。
它在Together公司发布的RedPajama数据集上训练,该数据集其实也是LLaMA训练集的复制品,一共包含1.2T token。
除了数据集不太一样之外,OpenLLaMA使用了 与原始LLaMA完全相同的预处理步骤和训练超参数 ,包括模型架构、上下文长度、训练步骤、学习率时间表和优化器,可以说是“重训”了一把。
今年5月,该团队率先发布了70亿参数版本,不过当时训练token还是3000亿。
按照计划,如今和原LLaMA训练数据量一致的130亿参数版本和70亿、30亿版本一同发布。
据介绍,130亿版本是与 Stability AI 合作训练的,后者主要提供计算资源 (当初Stable Diffusion也是这么与Stability AI合作) 。
和另外两个版本一样,OpenLLaMA-13B也以两种格式发布权重:
一是用于Hugging Face transformer的PyTorch格式。
使用该格式时需要注意先避免使用Hugging Face快速分词器 (tokenizer) ,因为它的自动转换功能有时会给出不正确的tokenization。
所以可以先直接使用LlamaTokenizer class来实现,或者用AutoTokenizer class,将use_fast赋为False。
二是用于EasyLM框架的EasyLM格式。
在此请注意,与原始LLaMA不同,该OpenLLaMA的分词器和权重是完全从头开始训练的,因此不再需要获取原始 LLaMA的这俩信息。
接下来,在训练量已达成一致的情况下,看OpenLLaMA各规模模型的性能表现如何。
在这里,作者使用EleutherAI发布的自回归语言模型few-shot评估框架 (lm-evaluation-harness) 对两只“羊驼”进行评估,以及还加入了“第三者”:
EleutherAI在Pile数据集上训练的60亿参数模型 GPT-J ,它的训练token数是5000亿。
需要注意的是,可能是因为不同的评估协议,作者跑出来的LLaMA结果与原始LLaMA略有不同。
以下是结果:
红色小方框为OpenLLaMA超过或者与原LLaMA表现一样的情况。
在红框之外,两者的差距也不大。
而 从平均表现 来看 ,OpenLLaMA-7B和LLaMA-7B得分都是0.55,OpenLLaMA-13B和LLaMA-13B也都一样,为0.57, 主打一个势均力敌 。
与此同时,只有30亿参数的OpenLLaMA平均性能超越60亿参数的GPT-J。
Meta也要发可商用大模型了
特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上,曾多次表达一个意思:
LLaMA-65b就是目前最好的开源基础模型,可惜没能商用。
现在,650亿的商用平替羊驼虽然还没出现,130亿和70亿是已经妥妥安排好了。
不过,也有一则好消息。
就在几天前,据The Information爆料, Meta AI正计划发布一个新的LLM,并且免费供大家商用 。
有观点指出,在如今行业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的情况下,Meta这一做法可能会引发连锁反应,并且开源模型和闭源模型的差距会越来越小。
就且拭目以待。
关于OpenLLaMA的所有相关链接: https://github.com/openlm-research/open_llama https://huggingface.co/openlm-research/open_llama_13b
本文参考链接还包括: https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
关键词:
丰色发自凹非寺量子位|公众号QbitAIMeta“羊驼”(LLaMA)的开源可商用2023-06-23
呼呼,观前提要 拉郎cp,cp为斥罪X多萝西,不喜欢或者反感的话就可以不2023-06-22
1:川酒集团副总经理,叙府酒业党委书记、董事长熊吉:光瓶酒品类即将2023-06-22
本文转自【央视新闻客户端】;当地时间6月18日,哈萨克斯坦首都阿斯塔2023-06-22
新华社荷兰蒂尔堡6月21日电综述:中荷经贸人士共话新能源产业合作机遇2023-06-22
通用电气(GeneralElectric)正在出售贝克休斯(BakerHughes)股票约30亿美2023-06-22
本周大盘又陷入僵局,主要指数小幅调整。上半年还有一周就要结束,从目2023-06-22
商家在发货前单方通过淘宝网阿里旺旺聊天窗口向消费者发送协议管辖条款2023-06-22
鑫顺看市:黄金1965空波段获利附后市操作思路!黄金走势分析: 2023-06-22
据央视新闻消息,今天(6月22日),“深海一号”二期关键控制性工程—2023-06-22
靶向治疗和化疗哪个效果好靶向药物作为一种重要的抗癌治疗方式,对于患2023-06-22
“和阅书屋”揭牌启用。简洁宽敞的“和阅书屋”。红网时刻衡阳6月22日2023-06-22
因为一起性骚扰爆料,昔日的名主持黄子佼不仅闹得庆生,更是揭露涉及多2023-06-22
包粽子、扎香囊、手工制作剪纸龙舟、中国文化讲座……端午节到来之际,2023-06-22
IT之家6月22日消息,苹果VisionPro头显搭载的visionOS操作系统内含一项2023-06-22
6月21日,广发双擎升级混合A最新单位净值为2 1937元,累计净值为2 32662023-06-22
导读:抹茶的制作方法?下文是小编给大家带来的介绍。先在茶碗中放入少2023-06-22
宁夏银川一烧烤店发生燃气爆炸现场搜救出38人6月21日20时40分许,宁夏2023-06-22
1、设置——通用——应用程序——USB调试-打开就可以了!用来连接豌豆2023-06-22
格隆汇6月21日丨CHIHODEV08423HK公布截至2023年3月31日止年度总收入由2023-06-22
中新网银川6月21日电(记者于晶)为进一步提升“塞上湖城大美银川”城市2023-06-22
音频解说1、BeisongKebenFanWenzhenggongWenji2、北宋刻本《范文正公文集》2023-06-22
1、乞力马扎罗山(Kilimanjaro)是非洲最高的山脉,是一个火山丘,海拔2023-06-21
月子中心一个月多少钱上海,月子中心一个月多少钱这个很多人还不知道,2023-06-21
红颜之姿翩跹起,灵动如烈焰飞扬。华服裹身神色动,舞姿绵密仿若凉。利2023-06-21