长久以来,服务器CPU的竞争焦点在于核心数量的比拼,而今这一格局已被彻底颠覆!
英特尔最新推出的至强® 6 性能核处理器系列(P-core),不再局限于单一维度的核心堆砌,而是通过创新设计重新定义了游戏规则:
在过去,提升CPU性能往往意味着增加单芯片上的核心数,但这种做法受限于制造工艺和物理尺寸,更不用说随之而来的I/O与内存匹配问题。
这一次,至强® 6 性能核处理器采取了全新的解耦式模块化架构,将计算单元与I/O单元分开设计。这不仅允许根据需要灵活配置计算核心的数量,还同步提升了内存带宽和I/O能力,从而确保了更卓越的整体性能与能源效率。
让我们用一个直观的例子来说明这一点:
2023年12月15日,当英特尔数据中心与人工智能集团副总裁陈葆立从口袋中拿出第五代至强® 可扩展处理器时,它仅有64个核心。
然而,在2024年9月26日,同样是陈葆立,他再次从口袋里掏出的是最新的至强® 6 性能核处理器,其核心数量直接翻番到了128个。
尽管两款处理器外观大小相近,都能轻易地装入口袋,它们之间的性能差距却是天壤之别。
具体而言,新发布的正是至强® 6性能核处理器家族中的旗舰产品——英特尔® 至强® 6900P系列。
这款处理器拥有高达128个高性能核心以及504MB的巨大L3缓存,支持更大容量、更高速度的内存,以及更强大的I/O处理能力。它特别适合用于科学计算、大规模数据处理以及人工智能等高度依赖算力的应用场景。
有人或许会问:你们又在谈论使用CPU进行AI运算吗?难道GPU不够好吗?
不不不,我们的意思是,有了这款CPU,你的GPU或者其他AI加速器将会发挥得更加出色!
谈到这个话题,不得不提的就是AI服务器。
随着生成式AI应用的爆发,AI服务器的重要性愈发凸显,对于训练、推理甚至是检索增强生成(RAG)等任务提出了更高的要求。
市场分析也表明:
虽然我们通常强调GPU或AI加速器在AI服务器中的重要性,却常常忽略了CPU的角色。那么,一款专为AI服务器或AI数据中心基础设施打造的优秀CPU应该具备什么特质呢?
英特尔® 至强® 6 性能核处理器给出了答案,并且受到了业界的高度评价:
简单来说,就是这次英特尔至强真的达到了极致。
那么,英特尔® 至强® 6 性能核处理器是如何赢得如此赞誉的呢?
首先来看算力方面。
英特尔® 至强® 6900P系列产品最引人注目的便是它的128核心配置(由三个计算芯片单元组成),这是其技术亮点之一。
该系列提供了不同核心数的产品选项,除了最高端的128核心版本外,还有86核心、48核心和16核心的不同型号,以适应各种应用场景。
这些模块中的计算芯片单元采用了Intel 3制程技术,集成了统一网格、核心、缓存和内存控制器等功能,保证了高效的数据传输一致性。
I/O芯片单元则基于Intel 7制程,内置了UPI、PCIe、CXL和加速引擎等组件。
与前一代产品相比,至强® 6 系列实现了I/O与计算单元的分离,这样做的好处是便于扩展核心数量,同时也简化了验证流程并提高了使用的灵活性。
除此之外,英特尔® 至强® 6 性能核处理器还包括以下特点:
6400 MT/s DDR5 内存速度8800 MT/s MRDIMM 内存速度六条UPI 2.0链路;每条速率可达24 GT/s96条PCIe 5.0通道及64条 CXL 2.0通道高达504MB的L3缓存支持FP16数据格式的英特尔® 高级矩阵扩展(AMX)接下来要谈的是内存性能。
至强® 6 性能核处理器在这方面同样超越了传统的限制。
它同时兼容更快的DDR5内存(6400MT/s)和更高效的MRDIMM内存(8800MT/s)。
仅更换内存类型就足以让科学计算和AI任务的速度提高7%到33%不等。相较于之前的HBM方案,MRDIMM不仅提供了更优的带宽和速度,而且独立于CPU的设计也让用户可以更自由地采购和升级。
内存性能不仅仅指内存本身,还包括CPU与内存间的数据交换技术。至强® 6 引入了Compute Express Link 2.0 (CXL 2.0),这是一种先进的互连标准。
CXL 2.0不仅向后兼容,还能灵活扩展内存和存储设备,支持链路分叉、多层次的CXL内存管理,以及热插拔功能,为未来数据中心架构带来更多的可能性。
特别值得一提的是“Flat”内存模式,这是一种独特的内存管理方式,它将CXL内存和DRAM内存整合成一个统一的内存层,使得操作系统可以直接访问整个内存空间。
这样的设计极大地提高了内存利用率,无需修改现有软件即可充分利用CXL内存带来的优势。
至强® 6 性能核处理器凭借其在内存速度、带宽、容量和可扩展性方面的综合优势,确立了自己在市场上的独特地位。
在实际的服务器部署中,CXL 2.0能够提供高达8TB的内存扩展能力和384GB/s的内存带宽。
当然,作为一款CPU,至强® 6 性能核处理器也不忘本职工作,它将内存与计算的优势结合起来,转化为实际的应用价值。
在计算性能方面,除了更多的核心数,还有内置加速器和更新后的指令集所带来的额外增益。
针对AI加速的英特尔® 高级矩阵扩展(AMX)现在支持FP16数据类型,涵盖了int8、BF16和FP16等多种数据格式。
每个核心的矩阵乘加(MAC)运算能力达到2048 FLOPS(int8)和1024 FLOPS(BF16/FP16),显著增强了AI推理和训练的表现。
此外,经过强化的英特尔® 高级矢量扩展512(AVX-512)仍然是科学计算、数据库管理和AI任务中的强大助手。
上述改进的结果是在多种负载下性能都有所提升,尤其是在Llama2-7B模型上的表现,较之前一代产品提高了3.08倍。
至于安全特性,英特尔从第五代至强® 开始引入了TDX技术,与早期的SGX一同保障关键数据和应用程序的安全。
在当前涉及大量敏感信息的AI数据中心环境中,安全性是不可忽视的重要环节。
总结起来,如果要用一句话来描述至强® 6 性能核处理器,特别是6900P系列产品的定位,那就是“强大的通用计算能力,加上出色的AI加速性能”。
那么,这款新处理器具体如何应用,表现又怎样呢?
请继续关注后续内容。