您现在的位置是:首页 > 人工智能人工智能
百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2
cc博主2023-09-07【人工智能】229人已围观
【CC博客】9月6日消息,在北京市科学技术委员会、中关村科技园区管理委员会、北京市海淀区政府的指导下,百川智能召开主题为“百川汇海,开源共赢”的大模型发布会,中科院院士张钹亲临现场并发表致辞。会上,百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本,并且均为免费可商用。
百川智能此次还开源了模型训练的Check Point,并宣布将发布 Baichuan 2 技术报告,详细介绍Baichuan 2 的训练细节,帮助大模型学术机构、开发者和企业用户更深入的了解其训练过程,更好地推动大模型学术研究和社区的技术发展。
Baichuan 2下载地址:https://github.com/baichuan-inc/Baichuan2
文理兼备性能优异,全面领先 LlaMA2
Baichuan 2-7B-Base 和 Baichuan 2-13B-Base,均基于 2.6万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。其中Baichuan 2-13B-Base相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
本次开源的两个模型在各大评测榜单上的表现优秀,在MMLU、CMMLU、GSM8K等几大权威评估基准中,以绝对优势领先LLaMA2,相比其他同等参数量大模型,表现也十分亮眼,性能大幅度优于LLaMA2等同尺寸模型竞品。
更值得一提的是,根据MMLU等多个权威英文评估基准评分 Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。
7B参数模型的Benchmark成绩
13B参数模型的Benchmark成绩
Baichuan2-7B和Baichuan2-13B不仅对学术研究完全开放,开发者也仅需邮件申请获得官方商用许可后,即可以免费商用。
国内首创全程开源模型训练Check Point,助力学术研究
大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。
本着协作和持续改进的精神,百川智能本次开源了模型训练从220B到2640B全过程的 Check Ponit。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展,开源训练模型过程对国内开源生态尚属首次。
技术报告揭示训练细节,繁荣开源生态
当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。
秉持更开放、更透明的理念,为帮助从业者深入了解Baichuan 2的训练过程和相关经验,更好地推动大模型社区的技术发展。百川智能在发布会上宣布,公开Baichuan 2的技术报告。技术报告将详细介绍Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。报告链接:
https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf
百川智能自成立之初,就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。成立不到四个月,便相继发布了Baichuan-7B、Baichuan-13B两款开源免费可商用的中文大模型,以及一款搜索增强大模型Baichuan-53B,两款开源大模型在多个权威评测榜单均名列前茅,目前下载量超过500万次。
不仅如此,在今年创立的大模型公司中,百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务的企业。凭借行业领先的基础大模型研发和创新能力,此次开源的两款Baichuan 2大模型,得到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作。
未来,百川智能将在开源大模型领域持续深耕,将更多的技术能力、前沿创新开放出来,与更多的合作伙伴们共同助力中国大模型生态蓬勃发展。
Tags:
相关文章
- XREAL Air 2系列升级发布 引领消费级AR眼镜发展新方向
- 电动汽车零部件需求增加 现代摩比斯今年在欧洲有望获得近13亿美元订单
- 比亚迪新能源汽车今年前8个月产销量接近去年全年
- 消息称小米汽车已试生产近一个月,最快年底开始量产
- Credo推出Seagull 452系列高性能光DSP芯片
- Credo推出用于光收发器/AOC的四通道跨阻放大器(TIA)芯片—— Teal 200
- 长期免费SS/SSR节点分享-永久一年v2ray链接下载-每日更新(2023/9/6)
- 华为荣归5G,Mate 60「遥遥领先」
- 三星同美国一家电动汽车厂商签订摄像头模组供应协议 被认为是特斯拉
- Arm拟将IPO发行价定在每股47美元至51美元之间
热门文章
- 香港VPS低至6折93元/年,全场8折,香港CN2,洛杉矶CN2 GIA,洛杉矶9929,洛杉矶CMIN2,日本大阪/东京IIJ,日本BGP,韩国BGP,英国伦敦AS9929住宅IP
- 低至4折,2核4GB内存VPS/GPU独服 $2.99/月起,GPU VPS/GPU专用服务器 $13/月起,物理专用服务器$29/月起,可免费试用
- MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷
- 知乎直答亮相“学术酒吧”开放麦,李开复、刘知远相聚“AI上头俱乐部”
- 美国/香港VPS年付99元起,双核/2GB/15GB SSD/500GB流量@100Mbps带宽
- 国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」
- RISC-V要成为「显性」技术,到了关键时期
- 英伟达CFO称Blackwell需求量惊人,已向合作伙伴发出1.3万个样片
- 黄仁勋亲述创业故事:两次都差点倒闭
热评文章
「11月18日」2024年V2ray/Clash/SSR/Shadowrocke泰国-新加坡免费节点
MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷
国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」
知乎直答亮相“学术酒吧”开放麦,李开复、刘知远相聚“AI上头俱乐部”
黄仁勋亲述创业故事:两次都差点倒闭
低至4折,2核4GB内存VPS/GPU独服 $2.99/月起,GPU VPS/GPU专用服务器 $13/月起,物理专用服务器$29/月起,可免费试用
RISC-V要成为「显性」技术,到了关键时期
香港VPS低至6折93元/年,全场8折,香港CN2,洛杉矶CN2 GIA,洛杉矶9929,洛杉矶CMIN2,日本大阪/东京IIJ,日本BGP,韩国BGP,英国伦敦AS9929住宅IP
英伟达SC24六大技术亮点,不止加速超算500强
美国/香港VPS年付99元起,双核/2GB/15GB SSD/500GB流量@100Mbps带宽