高芯圈 芯片半导体资讯网 从英特尔首款Chiplet设计,看芯片的未来

从英特尔首款Chiplet设计,看芯片的未来

作者:匿名    来源:未知   
浏览:812    发布:2021-09-01 14:06:49

高芯圈 高芯圈

英特尔在其服务器平台的竞争中面临的一个关键缺陷是核心数量——其他公司正在通过以下两种途径之一实现更多的核心:更小的核心,或连接在一起的单个chiplet。

 

在 2021 年架构日,英特尔披露了有关其下一代至强可扩展平台的功能,其中之一是向tiled 架构的转变。英特尔将通过其快速嵌入式桥接器组合四个 tile/chiplet,从而在更高的内核数下实现更好的 CPU 可扩展性。

 

作为披露的一部分,英特尔还扩展了其新的高级矩阵扩展 (AMX) 技术、CXL 1.1 支持、DDR5、PCIe 5.0 和加速器接口架构,这些架构将来可能会让定制 Xeon CPU成为可能。

 

Sapphire Rapids介绍:

 

Sapphire Rapids (SPR) 基于Intel 7工艺构建,这将成为英特尔用于 其Eagle Stream 平台的下一代至强可扩展服务器处理器,使用了我们上周详细介绍的最新 Golden Cove 处理器内核,Sapphire Rapids 将为英特尔带来多项关键技术:加速引擎、原生半精度 FP16 支持、DDR5、300 系列 Optane DC 持久内存、PCIe 5.0、CXL 1.1、更广泛、更快的 UPI、其最新的桥接技术 (EMIB)、新的 QoS 和遥测(telemetry)、HBM 以及工作负载专用加速。

 

Sapphire Rapids 将于 2022 年推出,这将成为英特尔首款利用多芯片架构设计的现代 CPU 产品,该架构旨在通过其嵌入式多芯片互连桥接技术最大限度地减少延迟和最大化带宽。这个设计将允许集成更多的高性能内核(英特尔尚未透露具体数量),重点是“对其客户群来说有个很重要的指标,例如节点性能和数据中心性能”。英特尔将 SPR 称为“十年来 DC 能力的最大飞跃”。

 

PCIe 5.0 则是对上一代 Ice Lake PCIe 4.0 的升级,我们从 DDR4 的 6 个 64 位内存控制器迁移到 DDR5 的 8 个 64 位内存控制器。但更大的改进在于内核、加速器和封装。

 

 

Golden Cove:具有 AMX 和 AIA 的高性能内核

 

 

通过在其企业平台 Sapphire Rapids 和消费者平台 Alder Lake 上使用相同的核心设计,我们在 2000 年代初期看到了一些相同的协同效应,当时英特尔做了同样的事情。关于Alder Lake,这里有一个快速回顾:

 

任何内核的目标都是更快地处理更多的事情,而最新一代的内核试图比以前做得更好。英特尔的许多变化都是有道理的。

 

Alder Lake 的消费者版本核心与 Sapphire Rapids 中的服务器核心之间存在一些差异。最明显的一个是消费者版本没有 AVX-512,而 SPR 将启用它。SPR 每个内核还有一个 2 MB 的私有二级缓存,而消费者版本仅有 1.25 MB。除此之外,我们还讨论了高级矩阵扩展 (AMX) 和新的加速器接口架构 (AIA)。

 

到目前为止,在 Intel 的 CPU 内核中,我们有标量操作(正常)和向量操作(AVX、AVX2、AVX-512)。下一阶段是专用矩阵求解器,或者类似于 GPU 中的张量核心。这就是 AMX 所做的,通过以 TMUL 指令的形式添加具有专用 AMX 指令的新可扩展寄存器文件。

 

AMX 将 8 个 1024 位寄存器用于基本数据运算( basic data operators),并且通过内存引用(memory references),TMUL 指令将使用这些块寄存器对数据块进行操作。TMUL 通过一个内置于内核中的专用引擎协处理器(每个内核有一个)来支持,而 AMX 背后的基础是 TMUL 只是一个这样的协处理器。英特尔将 AMX 设计为更广泛的范围,而不仅仅是这样——如果英特尔更深入地实施其多芯片战略,在某个时候我们可以看到通过 AMX 启用自定义加速器。

 

英特尔确认我们不应该看到任何比 AVX 更糟糕的频率下降——当调用向量和矩阵指令时,每个内核都有新的细粒度电源控制器。

 

这非常适合讨论新的加速器接口 AIA。通常,在使用附加加速卡时,命令必须在内核空间和用户空间之间导航( navigate )、设置内存并在多个主机之间引导任何虚拟化。英特尔描述其新加速引擎接口的方式类似于与 PCIe 设备交谈,就好像它只是 CPU 板上的加速器,即使它是通过 PCIe 连接的。

 

最初,英特尔将拥有两个功能强大的 AIA 硬件位。

 

英特尔快速辅助技术 (QAT) 是我们之前见过的一种技术,因为它展示了 Skylake Xeon 芯片组的特殊变体(需要 PCIe 3.0 x16 链接)以及附加 PCIe 卡——该版本将支持高达400 Gb/s 对称加密,或高达 160 Gb/s 压缩加 160 Gb/s 解压同时进行,是之前版本的两倍。

 

另一个是英特尔的数据流加速器 (DSA)。 自 2019 年以来,英特尔一直在网络上提供有关 DSA 的文档,称它是一种高性能数据复制和转换加速器,用于通过 DMA 重新映射硬件单元/IOMMU 将数据从存储和内存或系统的其他部分流式传输。DSA 是特定超大规模客户的请求,他们希望将其部署在自己的内部云基础设施中,英特尔热衷于指出一些客户将使用 DSA,一些将使用英特尔的新基础设施处理单元,而一些将使用两者,取决于他们感兴趣的集成或抽象级别。英特尔告诉我们,DSA 是对 Purley (SKL+CLX) 平台上的 Crystal Beach DMA 引擎的升级。

 

最重要的是,Sapphire Rapids 还支持半精度的 AVX512_FP16 指令,主要用于人工智能工作负载,作为其 DLBoost 策略的一部分。除了 INT8 和 BF16 支持外,这些 FP16 命令还可用作 AMX 的一部分。英特尔现在还支持 CLDEMOTE 进行缓存行管理。

 

 

关于 CXL 的一个副词

 

 

在 Sapphire Rapids 的演示中,英特尔一直热衷于强调它将在发布时支持 CXL 1.1。CXL 是一种连接标准,旨在处理比 PCIe 做的更多的事情——除了简单地作为从主机到设备的数据传输之外,CXL 还支持三个分支,称为 IO、缓存和内存。正如 CXL 1.0 和 1.1 标准中定义的那样,这三个标准构成了连接主机与设备的新方法的基础。

 

 

当然,我们期望所有 CXL 1.1 设备都支持所有这三个标准。直到几天后的 Hot Chips,我们才了解到 Sapphire Rapids 仅支持部分 CXL 标准,特别是 CXL.io 和 CXL.cache,但 CXL.memory 不会成为 SPR 的一部分。我们不确定这在多大程度上意味着 SPR 不符合 CXL 1.1,或者这对 CXL 1.1 设备意味着什么——没有 CXL.mem,如上图所示,英特尔失去的只是 Type-2 支持。也许这更多地表明 CXL 2.0 更好地服务于 CXL 周围的市场,这无疑会出现在以后的产品中。

需要找芯片半导体行业人才或者芯片半导体行业职位,请直接站内注册登录或者站内联系我们。高芯圈是芯片半导体行业的人才求职招聘网站平台,提供求职招聘、人才筛选、薪酬报告、人事外包等服务与解决方案,芯片半导体行业人才与职位尽在高芯圈。
高芯圈
芯片半导体职位来 高芯圈
登录 / 注册