联想推出首款AMD AI服务器，单机部署DeepSeek大模型实现6708 token/s吞吐量-高芯圈

联想近日宣布推出旗下首款基于AMD技术的AI服务器——联想问天WA7785a G3。该服务器在单机部署671B（满血版）DeepSeek大模型时，实测最高吞吐量达到6708 token/s，刷新了大模型推理性能的行业标准。

这一突破得益于联想万全异构智算平台的创新设计。通过访存优化、显存优化、PCIe 5.0全互联架构以及SGLang框架中性能最优算子的精选，联想对DeepSeek大模型从预训练、后训练到推理的全流程进行了深度优化。

在模拟问题对话场景（上下文序列长度128/1K）中，联想问天WA7785a G3最高支持并发数158，TPOT（每次输出时间）为93毫秒，TTFT（首次输出时间）为2.01秒。而在模拟代码生成场景（上下文序列长度512/4K）中，并发数可达140，TPOT为100毫秒，TTFT为5.53秒。

这一性能表现意味着单台联想问天WA7785a G3可支撑1500人规模企业的日常需求，相比此前联想问天WA7780 G3服务器单机部署DeepSeek大模型时2500 token/s的吞吐量，实现了显著提升。

联想表示，此次突破是联想中国基础设施业务群、联想研究院ICI实验室与AMD联合设计、协同调优的成果。目前，双方仍在探索深度调优的新方法，以进一步提升性能。

此外，联想问天WA7785a G3的推出也标志着联想在AI服务器领域的技术积累进一步深化。随着大模型应用场景的不断扩展，高性能、低延迟的AI服务器将成为企业数字化转型的关键基础设施。

免责声明：本网站转载其他网站内容，出于传递更多信息而非盈利之目的，同时并不代表赞成其观点或证实其描述，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

联想推出首款AMD AI服务器，单机部署DeepSeek大模型实现6708 token/s吞吐量