

联想近日宣布推出旗下首款基于AMD技术的AI服务器——联想问天WA7785a G3。该服务器在单机部署671B(满血版)DeepSeek大模型时,实测最高吞吐量达到6708 token/s,刷新了大模型推理性能的行业标准。
这一突破得益于联想万全异构智算平台的创新设计。通过访存优化、显存优化、PCIe 5.0全互联架构以及SGLang框架中性能最优算子的精选,联想对DeepSeek大模型从预训练、后训练到推理的全流程进行了深度优化。
在模拟问题对话场景(上下文序列长度128/1K)中,联想问天WA7785a G3最高支持并发数158,TPOT(每次输出时间)为93毫秒,TTFT(首次输出时间)为2.01秒。而在模拟代码生成场景(上下文序列长度512/4K)中,并发数可达140,TPOT为100毫秒,TTFT为5.53秒。
这一性能表现意味着单台联想问天WA7785a G3可支撑1500人规模企业的日常需求,相比此前联想问天WA7780 G3服务器单机部署DeepSeek大模型时2500 token/s的吞吐量,实现了显著提升。
联想表示,此次突破是联想中国基础设施业务群、联想研究院ICI实验室与AMD联合设计、协同调优的成果。目前,双方仍在探索深度调优的新方法,以进一步提升性能。
此外,联想问天WA7785a G3的推出也标志着联想在AI服务器领域的技术积累进一步深化。随着大模型应用场景的不断扩展,高性能、低延迟的AI服务器将成为企业数字化转型的关键基础设施。
