
浪潮信息元脑R1深度适配SGLang最新版本
(全球TMT2025年2月27日讯)浪潮信息元脑R1推理服务器已完成对开源框架SGLang最新版本的深度适配,成功在单机高性能运行DeepSeek R1 671B模型时支持超过1000路的用户并发访问。DeepSeek R1参数量达6710亿,采用MLA注意力机制和混合专家(MoE)架构。浪潮信息团队从AI服务器和推理框架入手进行了协同优化。
元脑R1推理服务器NF5688G7搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,显存带宽高达4.8TB/s,完美契合模型技术特征,实现推理解码阶段极致加速。GPU P2P带宽达900GB/s,保障最佳通讯性能。目前,元脑R1推理服务器 NF5688G7已完成SGLang最新版本0.4.3的适配优化工作。通过多方面工程实践,在元脑R1推理服务器NF5688G7上运行DeepSeek 671B R1模型,成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。
文章评论(0)