浪潮信息发布源2.0-M32大模型量化版，性能比肩LLaMA3

全球TMT • 2年前 (2024-08-23) 761浏览

浪潮信息发布源2.0-M32大模型量化版，性能比肩LLaMA3

（全球TMT2024年8月23日讯）近日，浪潮信息发布源2.0-M32大模型4bit和8bit量化版，性能比肩700亿参数的LLaMA3开源大模型。其中，4bit量化版推理运行显存仅需23.27GB，处理每token所需算力约为1.9 GFLOPs，算力消耗仅为同等当量大模型LLaMA3-70B的1/80。

源2.0-M32量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率，在不同硬件和软件环境中均能高效运行，降低了模型移植和部署门槛。

源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本，其创新性地提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家(Expert)的混合专家模型(MoE)，模型运行时激活参数为37亿。评测结果显示，源2.0-M32量化版在多个业界主流的评测任务中性能表现突出，特别是在MATH（数学竞赛）、ARC-C（科学推理）任务中，比肩拥有700亿参数的LLaMA3大模型。

文章评论(0)

无需注册，直接使用社交账号登录