IBM公开下代Z系列处理器:取消L3/L4物理缓存
- +1 你赞过了
【天极网DIY硬件频道】除了大家熟知的x86、ARM、RISC-V等架构处理器外,IBM的Power系列处理器同样性能强大,但它们主要面对专业市场,大众的熟知程度自然不及前面几种。在8月举行的HotChips 33上,IBM公布其下一代Z系列“Telum”处理器,采用全新的内核架构,拥有全新的分支预测、缓存和多芯片一致性互连,针对AI加速做了优化。
核心规格方面,IBM没有将新一代产品命名为Z16,而是使用Telum作为名称,该处理器采用三星7nm工艺制造,集成225亿个晶体管,核心面积达530平方毫米。IBM为其配置8核16线程,最高频率超5GHz,IBM可以将两个芯片封装在一起,成为四个同样封装的处理器组成一个单元,然后将四个同样的单元组成一个系统,整个系统共有32个芯片和256个核心。
至于为什么没有命名为Z16,外界认为可能是因为缓存采用不同的封装方法。不过IBM的Telum上没有L4缓存,而且连L3缓存也被砍掉了。按照以往的传统,IBM的Z系列处理器以内建大容量L3缓存出名,而且还有单独的全局L4缓存,作为多个处理器间的缓存。IBM为Telum的每核心配置比一般处理器更大的32MB L2缓存,并且取消核心之间共享的L3和L4缓存。这样的设计会让缓存的访问延迟很高。
为了解决这个问题,IBM通过私有物理缓存里打造共享虚拟缓存的方法解决,就是将平时需要放置在L3缓存里的部分标记为L3缓存线,存在不同核心空余的L2缓存里。L2和L3缓存在物理上实现一致,可以根据工作负载的需要对不同核心的L2和L3缓存线的混合数据,意味着一个芯片8个核心里 ,8*32MB 共256MB的L2缓存也可以视为“虚拟 ”L3缓存,采用双向环形互连拓扑结构。
L4缓存同样采用L3相似的设计方式,L2缓存里可以容纳L4缓存线。从单个核心的角度来看,一个基于Telum打造标准的系统可以访问32MB的L2缓存 ,256MB的共享虚拟L3缓存以及8GB共享L4缓存。IBM表示,使用这种虚拟缓存的系统,每个核心的缓存相当于Z15的1.5倍,而且改善数据访问的平均延迟,性能提高40%以上。
具体运行中如何降低延迟和保证命中率是非常复杂的操作,加上功耗、缓存在断电和空闲等状态下如何保证单核心工作负载的一致性,这都是IBM需要考虑的问题。为了更有效利用缓存,芯片设计公司需要根据处理器用于哪方面的工作负载,以提高设计的效率。IBM的产品一般都是大型主机使用,大多是政府或银行这样的客户,对安全性和稳定性极高,所以需要故障安全和故障转移功能。
IBM上一代Z15的基本单元由五个模块构成的系统,其中四个计算模块(CP)搭配一个是控制模块(SC),四个计算模块均内建12个核心和256MB共享的L3缓存,核心频率为5.2 GHz, 面积为696平方毫米。四个计算模块两两配对,各自与控制模块相连。控制模块拥有960MB的L4缓存,并与四个计算模块共享。
上一代的Z15采用IBM和GlobalFoundries联合研发的14nm SOI特殊工艺制造,L1和L2缓存与核心频率一样都是5.2GHz,L3和L4缓存只有半速的2.6GHz。意味着单个IBM Z15系统是25块696平方毫米的芯片组成,共有20*256MB的L3缓存,还有5*960MB的L4缓存,以全对全拓扑连接。
现代的处理器普遍采用L1、L2、L3三级缓存架构,越靠近执行端口的缓存越小、但越速度快, 缓存越多、越大所需的访问周期就越长(比如L3)。除了缓存容量的大小外,延迟同样非常重要,缓存越大、延迟越高,缓存命中率也会更低。英特尔、AMD乃至ARM、RISC-V都在尽可能增大L3缓存容量,甚至增加L4缓存提高性能。
比如在AMD处理器和显卡核心上使用3D垂直缓存(3D V-Cache) 技术,能够位核心提供额外的SRAM缓存,进而大幅度提升核心的数据交换能力。可以思考一下,如果AMD使用3D V-Cache技术堆叠的不是L3缓存,而是L2缓存,同样采取虚拟L3缓存线的方式,这样的微架构对性能会有怎样的影响?
编辑点评:从实用角度来说,IBM全新的缓存架构设计能够能够提升空闲缓存的利用效率,进而缩小芯片面积、降低制造成本。但这种设计同时也需要面临众多问题,如何平衡内核对缓存之间的使用,也是IBM需要面对问题。
最新资讯
热门视频
新品评测