元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度

全球TMT • 8个月前 (11-10) 769浏览

元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度

（全球TMT2025年11月10日讯）近日，在2025人工智能计算大会上，浪潮信息公布，基于元脑SD200超节点AI服务器，DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度。元脑SD200超节点AI服务器基于高带宽、低延时、原生内存语义的开放总线协议，通过构建高性能交换单元打造3D Mesh高性能互连超扩展系统，支持64张本土AI芯片高密度算力扩展，能够很好地满足DeepSeek等大模型的低延迟推理需求，加快token生成速度。

除了硬件方面的创新，浪潮信息AI团队也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征，完成了通信库、计算框架层面等多方面的优化，充分发挥了元脑SD200的计算性能，最终实现了低延迟推理。同时，也支持预填充-解码 (Prefill-Decode) 分离推理，在满足客户业务场景SLO需求的基础上提供更高性能。框架层面，浪潮信息AI团队完成了并行方式、算子融合、多流水线等多方面优化，来保证计算的低延迟。此外，浪潮信息还开发了预填充-解码 (Prefill-Decode) 分离软件，针对预填充与解码不同的计算特性，使用不同的并行计算策略、硬件配置等，提高系统整体的计算性能。

文章评论(0)

无需注册，直接使用社交账号登录