丰色出自奥飞寺
量子比特| 公众号QbitAI
李开复旗下的人工智能公司零一万,还有另一位主要的模型玩家。
90亿参数Yi-9B。
被誉为Easy系列中的“科学冠军”,在代码数学方面取得了“进步”,同时,他的综合实力无人能及。
在一系列类似规模的开源模型(包括Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 等)中性能最佳。
根据旧规则,公开意味着开源,尤其是对开发者友好。
Yi-9B (BF 16) 及其量化版本Yi-9B (Int8) 可引入消费类显卡。
RTX 4090 或RTX 3090 就足够了。
Yi家族由深度放大+多步增量训练组成,目前已发布Yi-6B和Yi-34B系列。
两者都使用3.1T 的中文和英文数据token 进行预训练,而Yi-9B 则使用额外的0.8T token 进行训练。
数据截止日期为2023年6月。
正如我在开头提到的,Yi-9B最大的进步是在数学和编码方面,但是如何提高这两种能力呢?
零一事简介:
单纯增加数据量并不能达到预期。
这依赖于首先在Yi-6B 的基础上将模型大小增加到9B,然后进行多阶段数据增量训练。
首先,我们如何增加模型的大小?
前提之一是团队通过分析发现:
考虑增加大小,因为Yi-6B 训练良好,添加更多标记可能不会提高训练效果。 (下图中的单位是B,不是TB)
如何增加呢?答案是深度放大。
零一事简介:
增加原始模型的宽度会导致很大的性能损失。通过选择合适的层对模型进行深度放大后,新层的输入和输出余弦越接近1.0,放大模型的性能越好。保持了原始模型的性能,并且模型的性能仅略有下降。
遵循这一思路,零义乌选择复制Yi-6B相对落后的16层(12-28层),形成48层的Yi-9B。
实验表明,该方法比使用Solar-10.7B 模型复制中间16 层(第8 至24 层)的效果更好。
二、什么是多阶段训练方法?
答案是先添加0.4T数据,文字加代码,但数据比例与Yi-6B相同。
接下来,再添加0.4T数据。这也包括文本和代码,但重点是增加代码和数学数据的比例。
(好吧,这和大型模型题中的“一步步思考”技巧是一样的)
完成这两个步骤后,团队还参考了《An Empirical Model for Large-Scale Batch Training》和《Increasing Batch Size Without Decreasing Learning Rate》两篇论文的思想来优化参数调整方法。
也就是说,从固定的学习率开始,每次模型损失停止减少时,增加批量大小,以使模型训练得更完整,而不会中断减少。
最终,Yi-9B 实际上总共包含了88 亿个参数,上下文长度为4k。
在编码能力和数学能力最强的e系列真实测试中,零E一采用贪心解码生成方式(即每次选择概率值最高的单词)进行测试。
参与的模型包括DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和Gemma-7B。
(1)国内深度搜索公司DeepSeek-Coder的33B指令调优版本在人类评估中优于GPT-3.5-turbo,7B版本的性能可以达到CodeLlama-34B的性能。
DeepSeek-Math依靠7B参数击败了GPT-4,震惊了整个开源社区。
(2)SOLAR-10.7B源自韩国Upstage AI,诞生于2023年12月。其性能超过Mixtral-8x7B-Instruct。
(3)Mistral-7B是第一个开源的MoE大型模型,达到或超过Llama 2 70B和GPT-3.5的水平。
(4)Gemma-7B来自Google,零一事指出:
有效参数与Yi-9B处于同一水平。
(这两种命名标准不同;前者仅使用非嵌入参数,后者使用所有参数并向上舍入。)
结果如下。
首先,在编码任务上,Yi-9B的表现仅次于DeepSeek-Coder-7B,其他四家全部KO。
在数学能力方面,Yi-9B的表现仅次于DeepSeek-Math-7B,优于其他四款。
他的综合能力也不差。
它的性能是同类规模的开源模型中最好的,并且优于所有其他五个竞争对手。
最后,还测试了常识和推理能力。
结果发现,Yi-9B 与Mistral-7B、SOLAR-10.7B 和Gemma-7B 等效。
就语言能力而言,不仅英语优秀,汉语也广受好评。
最后,有网友读完后表示:我迫不及待地想尝试一下。
有些人对DeepSeek 感到担忧。
现在就加强你的“游戏”吧!整体优势没了==
传送门在这里:https://huggingface.co/01-ai/Yi-9B
参考链接:https://mp.weixin.qq.com/s/0CXIBlCZ7DJ2XjYT6Rm8twhttps://twitter.com/01AI_Yi/status/1765422092663849368—完—量子位QbitAI·今日头条订阅关注,第一时间了解最新技术动态
【四川消费券可用商户,郑州消费券可用商家】相关文章: