高芯圈 芯片半导体资讯网 揭开CXL内存的神秘面纱

揭开CXL内存的神秘面纱

作者:匿名    来源:半导体行业观察   
浏览:523    发布:2023-04-12 10:21:38

高芯圈 高芯圈

现代数据中心对内存容量的高需求促进了内存扩展和分解方面的多条创新线,其中一项获得极大关注的工作是基于Compute eXpress Link(CXL)的内存扩展。为了更好地利用CXL,研究人员建立了几个仿真和实验平台来研究其行为和特性。然而,由于缺乏支持CXL的商业硬件,大家可能仍不清楚其功能的全貌。在这项工作中,我们在最先进的实验平台上探索了CXL存储器的性能表征。首先,我们使用我们提出的微基准来研究CXL存储器的基本性能特征。基于我们的观察结果和与连接到本地和远程NUMA节点的标准DRAM的比较,我们还研究了CXL内存对具有不同卸载和交织策略的端到端应用程序的影响。最后,我们为未来的程序员提供了一些指南,以充分发挥CXL内存的潜力。(广州金融科技猎头


在数据中心存储和处理数据的爆炸性需求、以及传统DDR内存接口的有限带宽和容量可扩展性,要求采用新的内存接口技术和系统架构。其中,Compute eXpress Link(CXL)已成为业界和学术界最有前途的技术之一,不仅用于内存容量/带宽扩展,还用于内存分解。


CXL是由主要硬件供应商和云提供商于2019年共同制定的开放标准,目前仍在快速发展。具体来说,与传统的PCIe互连相比,它提供了一组新功能,使CPU能够以具有加载/存储语义的高速缓存一致方式与外围设备(及其连接的存储器)通信。因此,与内存相关的设备扩展是CXL的主要目标场景之一。


作为未来数据中心的事实标准,主要硬件供应商已在其产品路线图中宣布支持CXL。鉴于CXL存储器的受欢迎程度和前景,它备受关注。然而,由于缺乏支持CXL的商用硬件(尤其是CPU),最近对CXL内存的研究都是基于使用多插槽NUMA系统的仿真,因为CXL内存被公开为NUMA节点。因此,这些研究可能无法准确地对现实世界中的CXL内存进行建模和表征。


随着Intel第4代Xeon可扩展CPU(Sapphire Rapids或SPR)和商用CXL设备的出现,我们能够开始了解CXL存储器的实际特性,并定制能够充分利用这些特性的软件系统。在这项工作中,我们在由Intel SPR CPU和基于Intel Agilex-I FPGA的CXL存储器(R-Tile中加固的CXL控制器)组成的测试台上,对具有多个微基准和端到端应用程序的CXL内存进行了全面分析。从我们的微基准标记中,我们发现CXL内存的行为与远程NUMA节点中的内存不同,后者通常用于仿真。与基于NUMA的内存相比,真正的CXL内存具有:(1)更高的延迟,(2)更少的内存通道(导致更低的吞吐量),以及(3)在各种操作下不同的传输效率。


基于上述观察,我们还将CXL内存应用于表现出不同内存访问行为的三个实际应用程序。我们发现它们对CXL内存卸载有不同的敏感性。具体而言,我们发现(1)μs延迟数据库对内存延迟的增加高度敏感,(2)当数据库在CXL内存上运行时,具有中间计算层的ms延迟微服务受到的影响较小,(3)内存密集型ML推理对CXL内存提供的随机访问吞吐量敏感。在所有情况下,在连接CPU的DRAM和CXL内存之间交错内存可以减少CXL内存带来的性能损失。


接下来,在分析了在使用CXL内存的系统上运行的微基准和应用程序的性能特征后,我们为用户提供了一些实用的指导方针,以优化他们的软件堆栈/库以获得最高性能。例如,应该使用在CXL内存和DRAM之间均匀分布的带宽来最大限度地提高性能;应当使用高速缓存旁路指令来进行从CXL存储器到CXL存储器的数据移动;对于单个CXL内存通道,由于几个线程很容易使负载或存储带宽饱和,因此应该限制对CXL内存的写线程数量,以减少写干扰;并且应该针对以毫秒级延迟运行的读取量大的应用程序,其中较高的CXL内存延迟可以通过中间计算来分摊。(广州金融科技猎头网


来源:半导体行业观察

 

高芯圈
免责声明:本网站转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
芯片半导体职位来 高芯圈
登录 / 注册