IBM公开下代Z系列处理器：取消L3/L4物理缓存

【天极网DIY硬件频道】除了大家熟知的x86、ARM、RISC-V等架构处理器外，IBM的Power系列处理器同样性能强大，但它们主要面对专业市场，大众的熟知程度自然不及前面几种。在8月举行的HotChips 33上，IBM公布其下一代Z系列“Telum”处理器，采用全新的内核架构，拥有全新的分支预测、缓存和多芯片一致性互连，针对AI加速做了优化。

核心规格方面，IBM没有将新一代产品命名为Z16，而是使用Telum作为名称，该处理器采用三星7nm工艺制造，集成225亿个晶体管，核心面积达530平方毫米。IBM为其配置8核16线程，最高频率超5GHz，IBM可以将两个芯片封装在一起，成为四个同样封装的处理器组成一个单元，然后将四个同样的单元组成一个系统，整个系统共有32个芯片和256个核心。

至于为什么没有命名为Z16，外界认为可能是因为缓存采用不同的封装方法。不过IBM的Telum上没有L4缓存，而且连L3缓存也被砍掉了。按照以往的传统，IBM的Z系列处理器以内建大容量L3缓存出名，而且还有单独的全局L4缓存，作为多个处理器间的缓存。IBM为Telum的每核心配置比一般处理器更大的32MB L2缓存，并且取消核心之间共享的L3和L4缓存。这样的设计会让缓存的访问延迟很高。

为了解决这个问题，IBM通过私有物理缓存里打造共享虚拟缓存的方法解决，就是将平时需要放置在L3缓存里的部分标记为L3缓存线，存在不同核心空余的L2缓存里。L2和L3缓存在物理上实现一致，可以根据工作负载的需要对不同核心的L2和L3缓存线的混合数据，意味着一个芯片8个核心里，8*32MB 共256MB的L2缓存也可以视为“虚拟 ”L3缓存，采用双向环形互连拓扑结构。

L4缓存同样采用L3相似的设计方式，L2缓存里可以容纳L4缓存线。从单个核心的角度来看，一个基于Telum打造标准的系统可以访问32MB的L2缓存，256MB的共享虚拟L3缓存以及8GB共享L4缓存。IBM表示，使用这种虚拟缓存的系统，每个核心的缓存相当于Z15的1.5倍，而且改善数据访问的平均延迟，性能提高40%以上。

具体运行中如何降低延迟和保证命中率是非常复杂的操作，加上功耗、缓存在断电和空闲等状态下如何保证单核心工作负载的一致性，这都是IBM需要考虑的问题。为了更有效利用缓存，芯片设计公司需要根据处理器用于哪方面的工作负载，以提高设计的效率。IBM的产品一般都是大型主机使用，大多是政府或银行这样的客户，对安全性和稳定性极高，所以需要故障安全和故障转移功能。

IBM上一代Z15的基本单元由五个模块构成的系统，其中四个计算模块(CP)搭配一个是控制模块(SC)，四个计算模块均内建12个核心和256MB共享的L3缓存，核心频率为5.2 GHz，面积为696平方毫米。四个计算模块两两配对，各自与控制模块相连。控制模块拥有960MB的L4缓存，并与四个计算模块共享。

上一代的Z15采用IBM和GlobalFoundries联合研发的14nm SOI特殊工艺制造，L1和L2缓存与核心频率一样都是5.2GHz，L3和L4缓存只有半速的2.6GHz。意味着单个IBM Z15系统是25块696平方毫米的芯片组成，共有20*256MB的L3缓存，还有5*960MB的L4缓存，以全对全拓扑连接。

现代的处理器普遍采用L1、L2、L3三级缓存架构，越靠近执行端口的缓存越小、但越速度快，缓存越多、越大所需的访问周期就越长(比如L3)。除了缓存容量的大小外，延迟同样非常重要，缓存越大、延迟越高，缓存命中率也会更低。英特尔、AMD乃至ARM、RISC-V都在尽可能增大L3缓存容量，甚至增加L4缓存提高性能。

比如在AMD处理器和显卡核心上使用3D垂直缓存(3D V-Cache) 技术，能够位核心提供额外的SRAM缓存，进而大幅度提升核心的数据交换能力。可以思考一下，如果AMD使用3D V-Cache技术堆叠的不是L3缓存，而是L2缓存，同样采取虚拟L3缓存线的方式，这样的微架构对性能会有怎样的影响？