王小川大模型将在25天后升级!13B版本开源,免费商用,3090即可部署

日期:2023-07-12 11:53:58 / 人气:131

“于恒·雷锦来自奥菲坦普尔。
量子比特|微信官方账号QbitAI
刚刚,王小川大开源模式又有新动作——
百川智能正式发布130亿参数通用大语言模型(百川-13B-Base)。
官方对此的评价是:
最强大的开源模型,中英文几百亿参数。
与之相伴的还有对话模型Baicheng-13b-chat,以及它的两个量子化版本INT4/INT8。
但更重要的是,它是完全开源的!商务免费!
不久前的6月15日,百川智能刚刚发布了旗下首款拥有70亿参数的中英语言模型——百川-7B。
当时该版本已经在多个世界权威基准榜单的同量级测试中获得第一名;作为开源模式,据说清华和北大已经在用了。
才过了25天,更大更强的版本又来了。不得不说,王小川的技术动作足够密集。
那么所谓的“最强开源大模型”具体表现如何呢?
在许多领域超越ChatGPT
照例先简单说一下百川-13B的基本“型号”信息:
中英双语模型,130亿参数,在1.4万亿token数据集上训练,完全开源,免费商用。
1.4万亿ztoken的训练数据是LLaMA-13B训练数据的40%以上,是开源13B模型世界中训练数据最多的模型。
此外,百川-13B的上下文窗口长度为4096-这不得不提其与7B版本完全不同的编码方式。
7B版本采用RoPE编码,而13B采用ALiBi位置编码技术,可以处理长上下文窗口,甚至可以推断训练时读取的数据之外的上下文长度,从而更好地捕捉文本中上下文的相关性,使预测或生成更加准确。
作为一款双语机型,百川-13B采用了相对均衡的中英文语料库比例和多语种对齐语料库,因此在中英文两种语言中都有不错的表现。
△主流百亿参数13B开源模型的基准分数
我们来看看百川-13B在中国领域的评测结果。
在评测集C-EVAl中,百川-13B在自然科学、医学、艺术和数学领域领先于骆马-13B和骆马-13B。
社科人文领域,水平比ChatGPT好一点。
在英语领域的表现还不错,能比其他同尺寸开源机型表现更好,比如LLaMA-13B,Vicuna-13B。
一般来说,非专业用户和有特定需求的企业对带有对话功能的对齐模型更为好奇。
针对这种情况,百川智能发布并训练了模型库百川-13B-Base,还发布了其对话模型百川-13B-Chat及其INT4/INT8两个量化版本。
我们来看看对话模式的实际表现效果——
让它写一封产品介绍邮件,它可以写这样的话:
什么是数据推理能力?
也浅尝辄止:
至于网上那些古老的或者新近流行的梗,好像白城-13b-chat都不怕:
根据官方介绍,为了保证模型的纯粹性,百川-13B-Base和百川-13B-Chat并没有针对任何基准测试进行特别优化,具有更高的效率和定制性。
为什么要完全开源,商用?
我们刚刚提到,百川智能推出的百川-13B-Base是完全开放学术研究的。
不仅如此,所有开发者均可通过邮件向百川智能申请授权,获得官方商用许可后即可免费商用。
而且根据官方说法,百川智能为了降低使用门槛,开放了百川-13B-Chat的INT8和INT4两个量化版本。
这样一来,模型就可以部署在3090等消费级显卡上,几乎没有任何损坏。
想必很多小伙伴会问,百川智能为什么要走这样一条路?
其实你看看大模型里Meta的开源之路,就能一窥究竟。
我们都知道大模型的训练成本是极高的,所以像OpenAI和Google这两个科技巨头最初选择了封闭源码的“路数”,为了保证自己的优势。
然而后来Meta推出的LLaMa“背道而驰”,但generate的潜力有目共睹——
它迅速吸引了大批开发者,在LLaMa的基础上迭代出了ChatGPT的各种替代方案,甚至是性能上可以媲美GPT-3.5的方案。
此外,业界对大模式的未来发展趋势也达成了共识:
类似于Android和iOS,会是开源和闭源并存的状态。
因此,开源已经成为大型模型开发中不可或缺的中坚力量。
……

作者:台湾五分彩开户官网




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 台湾五分彩开户官网 版权所有