浪潮信息发布创新开源大模型“源2.0-M32”

全球TMT • 1年前 (2024-05-30) 647浏览

浪潮信息发布创新开源大模型“源2.0-M32”

（全球TMT2024年5月30日讯）5月28日，浪潮信息发布了其最新的开源大模型“源2.0-M32”，该模型基于“源2.0”系列并引入了创新技术“基于注意力机制的门控网络”。通过构建一个包含32个专家的混合专家模型(MoE)，显著提升了算力效率，模型运行时激活参数为37亿，使其在业界主流评测中与700亿参数的LLaMA3开源大模型相媲美。此外，该模型还采用了一种新颖的算法结构来优化MoE模型中专家之间的调度和协同处理数据，从而提高处理自然语言任务的精度和效率。

源2.0-M32业界主流评测任务表现

在数据方面，“源2.0-M32”进行了大规模训练，覆盖广泛类型的数据，包括代码、书籍、百科等，并特别扩展了代码数据比例至47.5%，从6类最流行的代码扩充至619类，并通过对代码中英文注释的翻译，将中文代码数据量增大至1800亿token。这些丰富和高质量的数据集使得该模型在代码生成、理解及推理等方面表现出色。同时，在算力层面，“源2.0-M32”采用流水线并行+数据并行策略，显著降低了大模型对芯片间P2P带宽的需求，为硬件差异较大训练环境提供了一种高性能的训练方法。“源2.0-M32”大幅提升了模型算力效率，在实现与业界领先开源大模型性能相当的同时，显著降低了在模型训练、微调和推理所需的算力开销。此外，“源2.0-M32”将持续采用全面开源策略，全系列模型参数和代码均可免费下载使用。

文章评论(0)

无需注册，直接使用社交账号登录