最近,开发者社区一直在积极讨论基于开源模型重命名张量的话题。研究人员认为,灵一湾最近发布的Yi-34B模型基本采用了LLaMA架构,只是改变了两个张量的名称。
11月6日,由零一世界创始人兼CEO李开复领导的AI 2.0公司零一世界正式推出首款开源预训练大型模型Yi-34B。零千开源发布的Yi系列模型有34B和6B两个版本。其中,开源模型Yi-34B将作为全球最长版本发布,支持20万个超长上下文窗口(context windows),可处理约40万个汉字字符的超长文本输入。
在零千物的Huggingface社区中,有开发者质疑,除了两个重命名的张量(特别是input_layernorm和post_attention_layernorm)之外,Yi完全使用了LLaMA,并向零千物研发团队发了邮件。
LLaMA的正式名称是“Large Language Model Meta AI”,是Meta创建的大规模语言模型。今年7月,Meta发布了LLaMA2,并宣布完全开源,免费用于商业用途。
零一研发团队通过电子邮件回复了这个问题,并表示:“您对张量的看法是正确的。正如您所指出的,我们会将名称从Yi 更改为Yi。”发布具有新名称的新版本。 ”
零一研发团队表示,“命名问题确实是我们自身的疏忽造成的,由于进行了大量的训练试验,所以改了名字,在发布版本发布之前就没有再改回来。”我们的职责。”他对造成混乱表示歉意。零一团队表示,正在努力加强流程,以确保类似的错误不再发生。
外行看重的是大模型的独特性,而开发者则更看重大模型的适应性。
“Yi 的代码更改并未通过Pull Request(GitHub 开发者社区的代码提交术语)提交给Transformers 项目,而是以外部代码的形式附加,并且“这可能会导致更高的风险和不受支持的问题。 ”框架。由于缺乏自定义代码策略,HuggingFace 排行榜甚至无法在高达200K 的上下文窗口中对该模型进行基准测试。Zero-Yi 说这是一个32K 模型,但作为配置的4K 模型,并且没有RoPE 缩放配置,没有描述如何扩展。 ”
11月14日,阿里巴巴前副总裁、AI框架领域专家贾扬清在微信朋友圈发文,“做小企业不容易,国内企业都用开源的模型结构,希望他们能成为如果他们这样做的话,就会成为更好的公司。”我们不会更改名称,以避免将进一步的适应工作强加给其他人。他还指出,有些厂商的新模型实际上是LLaMA架构,但为了改变外观,他将代码中的名称从LLaMA更改为自己的名字,并且还更改了一些变量名称。不过,他没有提及具体制造商名称。
关于Yi模型中张量的更名,零壹万物回复第一财经记者如下: GPT是一种成熟的、业界认可的架构,LLaMA创建了关于GPT的总结。零千物大模型研发的结构设计基于GPT成熟的结构,并借鉴了业界领先的公共成果。由于大模型技术的发展还处于早期阶段,符合行业主流的结构设计将进一步有助于整体适配和未来迭代。与此同时,ZeroOne OneOne团队基于我们对模型和训练的理解,继续做大量的工作,寻求模型结构层面的本质突破。
另一方面,模型结构只是模型训练的一部分。 Yi重点关注开源模型的其他方面,包括数据工程、训练方法、保姆(监控训练过程)技能、超参数设置、评估方法以及对评估指标本质的深入理解。模型泛化能力原理很多研发和基础工作都深入投入到AI基础设施能力等方面。这些任务往往比基本结构具有更大的作用和价值。训练阶段。
随着模型架构在业界越来越普遍,商业许可保护也越来越受到关注。 ZeroOne告诉记者,商业许可保护了LLaMA的参数,并指出,虽然Yi开源模型是从头开始训练的,但其模型参数和参数获取过程与LLaMA无关,不需要商业许可。
业内人士认为,开发Yi模型的初衷其实是为了解决国内无法获取OpenAI和Google大规模模型的问题,为国人打造LLM(Large Language Model)生态友好模型。市场和中文语言环境。我认为我们的想法是开发该系统并将其提供给开发人员。易于使用的法学硕士申请。
人工智能领域的专家告诉记者,虽然开源本身意义重大,但他们并不看好国内初创公司基于开源在大型模型研发方面的未来。虽然模型中有来自大公司的丰富资金,但中小型公司集中涌入竞争的优势在于,为行业培养更多人工智能和大规模语言模型领域的人才.这是要做的。未来,国产卡车更大的机会仍然在应用层。
【llama羊驼,关于我写的同人被正主发现了这件事】相关文章: