元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度
(全球TMT2025年11月10日讯)近日,在2025人工智能计算大会上,浪潮信息公布,基于元脑SD200超节点AI服务器,DeepSeek R1大模型token生成速度仅需8.9毫秒,创造国内大模型最快token生成速度。元脑SD200超节点AI服务器基于高带宽、低延时、原生内存语义的开放总线协议,通过构建高性能交换单元打造3D Mesh高性能互连超扩展系统,支持64张本土AI芯片高密度算力扩展,能够很好地满足DeepSeek等大模型的低延迟推理需求,加快token生成速度。

除了硬件方面的创新,浪潮信息AI团队也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征,完成了通信库、计算框架层面等多方面的优化,充分发挥了元脑SD200的计算性能,最终实现了低延迟推理。同时,也支持预填充-解码 (Prefill-Decode) 分离推理,在满足客户业务场景SLO需求的基础上提供更高性能。框架层面,浪潮信息AI团队完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟。此外,浪潮信息还开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。

文章评论(0)