天极“i”访谈：英特尔嘉宾谈二代智能酷睿

Sandy Bridge六大技术亮点技术解析（下）

四、媒体引擎

除了GPU图形核心，Sandy Bridge中还有一个媒体处理器，专门负责视频解码、编码。新的硬件加速解码引擎中，整个视频管线都通过固定功能单元进行解码，和现在正好相反。Intel据此宣称，Sandy Bridge在播放视频的时候功耗可降低一半。

Sandy Bridge中将单独设立编码解码的媒体引擎

Sandy Bridge视频编码引擎则是全新的。具体细节没有公布，但是在Intel曾经的IDF大会现场中拿出了一段3分钟长的1080p 30Mbps高清视频，将其转换成640×360 iPhone格式，结果整个过程耗时非常短仅用时14秒（intel IDF大会演示），而这只花费了大约3平方毫米的核心面积。Intel与软件产业合作密切，相信这种视频转码技术会很快得到广泛支持。

五、环形总线

在Sandy Bridge中我们将会看到一个和以往不大一样的总线架构，在新处理器中会出现一个和服务器版的Nehalem-EX、Westmere-EX类似的架构，每个核心、每一块三级缓存(LLC)、集成图形核心、媒体引擎、系统助手(System Agent)都在这条线上拥有自己的接入点，就如同一个公用的平台一样。这条环形总线由四条独立的环组成，分别是数据环(DT)、请求环(QT)、响应环(RSP)、侦听环(SNP)。每条环的每个站台在每个时钟周期内都能接受32字节数据，而且环的访问总会自动选择最短的路径，以缩短延迟。随着核心数量、缓存容量的增多，缓存带宽也随时同步增加，因而能够很好地扩展到更多核心、更大服务器集群。

Sandy Bridge全新的环形架构

这样，Sandy Bridge每个核心的三级缓存带宽都是96GB/s，堪比高端Westmere，而四核心系统更是能达到384GB/s，因为每个核心都在环上有一个接入点。三级缓存的延迟也从大约36个周期减少到26-31个周期。此前预览的时候我们就已经感觉到了这一点，现在终于有了确切的数字。三级缓存现在被划分成多个区块，分别对应一个CPU核心，都在环形总线上有自己的接入点和完整缓存管线。每个核心都可以访问全部三级缓存，只是延迟不同。此前三级缓存只有一条缓存管线，所有核心的请求都必须通过它，现在很大程度上分而治之了。

和以前不同的是，三级缓存的频率现在也和核心频率同步，因而速度更快，不过缺点是三级缓存也会随着核心而降频，所以如果CPU降频的时候GPU又正好需要访问三级缓存，速度就慢下来了。

六、寄存器改进

Sandy Bridge里又增加了一个微指令缓存，用于在指令解码时临时存放。在取硬件获得一个新指令的时候，首先检查它是否存在于微指令缓存中，如是前端关闭缓存为其余管线服务，结束了这个X86管线中非常复杂的过程，能够节约大量功耗。

寄存器部分改进也是Sandy Bridge的一大亮点

和AMD的推土机、山猫一样intel也引入了物理寄存器。Core Duo时代是80-bit，加入SSE指令集后增至128-bit，现在又有了AVX指令集，按照趋势会翻番至256-bit。微指令缓存的彻底改变了原由的模式，微指令在乱序执行引擎中只会携带指向操作数的指针，而非数据本身。有效的减少了转移数据时数据流的吞吐量，降低了功耗减少了核心面积。这样AVX指令集才得以实现，以最小的核心面积代价，Intel将所有SIMD单元都转向了256-bit。AVX支持256-bit操作数，相当消耗晶体管与核心面积，而RPF的使用加大了乱序执行缓冲，能够很好地满足更高吞吐量的浮点引擎。

借由128bit的整数SIMD数据路径实现每周期内进行两个256-bit AVX操作，而原有128bit通道的功耗并不会因此而改变。AMD推土机架构对AVX的支持则有所不同，使用了两个128-bit SSE路径来合并成256-bit AVX操作，即使八核心(四模块)推土机的256-bit AVX吞吐量也要比四核心Sandy Bridge少一半。Sandy Bridge架构中载入和存储地址端口是对称的，都可以执行载入或者存储地址，载入带宽因此翻倍。 Sandy Bridge的整数执行也有了改进，只是比较有限。ADC指令吞吐量翻番，乘法运算可加速25%。

本文导航

阅读全文

天极“i”访谈：英特尔嘉宾谈二代智能酷睿

本文导航

热门标签