“心中一块大石头落了地,却砸到脚”,是不学无术的笔者先后在高中与大学联考总算结束后,对家中长辈的询问,唯一的单细胞动物制式反应,然后就只得到无穷无尽的白眼。
对于 8 月中旬,才刚以全程线上活动举办的“处理器业界最好的技术研讨会”第 32 届 IEEE Hot Chips,在计算机工业史上曾先后掌握先进半导体制程牛耳的 IBM 与英特尔(Intel),随着逐渐缠身的摩尔第二定律“诅咒”,两间挤了 4 年牙膏的 I 开头大公司,公布“崭新技术”细节后,只能让笔者立刻重温两次联考划下句点时的即视感。
总之重点可简述如下表。
继续用 28 核心打 AMD 64 核的 10 奈米制程 Xeon
英特尔从 2017 年夏天至今一直换汤不换药的 Xeon 平台“Purley”(Skylake-SP、Cascade Lake-SP/AP),制程从 14 奈米+ 挤到 14 奈米++,即将升级换代到 Whitley 平台与 10 奈米制程的 Ice Lake-SP 处理器。
笔者更好奇被腰斩的 14 奈米+++ 制程 Cooper Lake-SP,这个在新平台的旧制程处理器,究竟是热到什么程度(一度外传核心数量多达 48),或是出了什么问题,才难逃被腰斩的命运,可惜大概将和末代 NetBurst 微架构 Tejas 一样,永远没有公诸于世的机会。
但最让人“眼睛一亮”的,莫过于 Ice Lake-SP 不动如山的 28 核。等一下,之前谣传的 38 核版本到哪去了?全新 Xeon 的核心数如此之少是不是搞错了什么?唯一值得安慰的是,AMD 第三代 EPYC“Milan”“应该”维持 64 核,尚未拉开差距。
Ice Lake-SP 导入的 Sunny Cove 核心,“比前代 Cascade Lake 的 IPC 成长 18%”和那票针对密码学和解压缩而新增的 AVX-512 扩充指令,乍看之下也不是什么新奇玩意了,像 IFMA、VBMI2、BITALG、VPCLMULQDQ、GFNI、VAES 等,也都早就高高挂在 Wiki 的内容。
唯一略有新意者,仅限服务器版 Sunny Cove 核心激增每个核心专属的 L2 快取容量(512kB→1.25MB)以及第二个浮点乘积和(second FMA)执行单元。
当然,单一核心之外,整颗 Ice Lake-SP 系统架构层面的改进也并非一无可取,PCIe Gen4 与 8 通道 DDR4 内存控制器是显而易见的亮点。
但最值得一提的是,英特尔设法缩短整体内存存取延迟的努力,像多核心网状(Mesh)规划从 6×3 变成 7×3,每个网状区块可直接存取的内存通道数从 3 个降成 2 个(可参考这篇关于 AMD EPYC 内存通道的内容), 改善快取资料一致性协定的效率,和配置电源管理专用的控制讯号总线(对 AMD 处理器有点认识的话,就想成 Infinity Fabric 中当作“神经”的 Scalable Control Fabric)等,诸如此类,让 Ice Lake-SP 的有效内存带宽,相较于前代激增 43% 到 89%。
我们也可以合理预期,英特尔应也将重新攻击 AMD 因多芯片 Chiplet 路线,而导致整体内存延迟较长的“弱点”,这嘴炮攻势从初代 EPYC 就开始进行了,死灰复燃也不会让人太意外。
像提升执行 AVX-512 指令集的处理器运行时脉(毕竟也不是所有的 AVX-512 指令都很耗电)、改进处理器时脉切换的反应时间与精细粒度(所以又多出 Intel Speed Select Technology 这个新技术行销名词),这些例行公事,也都是英特尔在 HotChips 32 介绍 Ice Lake-SP 的重点项目。
但回过头来,Sunny Cove 核心的“额外 18 趴 IPC”加上“1.5~8 倍效能的密码学应用”,恐怕也不会有人觉得这足以抵销区区 28 核的压倒性数量劣势。按照常理判断,英特尔不太可能没准备更多核心的后继版(假若真的有,大概一两年前那票服务器 ODM 厂商都会得到详细资讯了)。当然我们有充分理由认定,即使产品规格输人,英特尔依旧握有大量“生态系统资源”维持市占率不坠,但能否继续享受过往一样丰厚的利润,那就是大大的问号了。
尤其云端服务业者建置新一批服务器的大宗处理器采购案,那刀刀见骨的砍价幅度,恐怕连擅长杀价的菜市场大妈都自叹不如,现在又刚好是英特尔想在先进制程技术重振旗鼓,挑战摩尔第二定律的关键时刻,英特尔是否还保有足够银弹,支撑擘画未来十年的制程研发,就请各位搬好凳子,备好零食等著看好戏。
双芯片封装拼核心数加上狂冲人工智能的 IBM Power10
IBM Power9 走了足足三代后(Scale-Out,Scale-Up,Advanced I/O)才粉墨登场的 Power10,预计一年内推出服务器系统产品。乍看之下 Power10 只是前代 Power9 的微幅改进版,似乎没有什么独到特色,但笔者仍必须强调几个很有看头的重点。
三星 7 奈米制程:从之前的三星 14 奈米跃进到 7 奈米,让能耗比成为前代 3 倍,IBM 下一代大型主机 z16 也预计会采用相同制程,这个就没什么好提了,哪天转单到台积电再来叫我。
双芯片封装加倍核心数量:Power10 实做了 16 个 SMT8 核心(或 32 个 SMT4),这次公布的是 SMT8 版,为了提高良率少了一个,因此 15 个 SMT8 核心、120 执行绪。Power10 将有双芯片封装版本,一个处理器脚座将最多拥有 30 个 SMT8 核心与 240 条执行绪。
PCIe Gen5:领先英特尔和 AMD 一大步,而 Power9 超级暴力的各类 I/O 界面,像 PowerAXON 和 Open Memory Interface,也继续在 Power10 发扬光大。
强化人工智能应用:Power 指令集 v3.1 版,支援各类可能用到的资料格式(BF16、FP16、INT8、INT4),并在微架构层面增强 SIMD 指令集效能。Power10 的单核心整体效能较 Power9 提高 30%,单执行绪效率多出 20%,能耗比则为 2.6 倍(因核心较多,单芯片就变成 3 倍)。
IBM 在扩张指令集的路上,也碰到 Power 指令编码字段不足的问题,如同 Fujitsu 在 SPARC64 VIIIfx 实作 HPC-ACE 和 A64FX 上的 SVE,IBM 透过追加前述码(Prefix)来变相延长指令长度。
有趣的是,近似英特尔 Sunny Cove,IBM Power10 有志一同激增 L1 与 L2 快取容量,L1 资料快取是 Power9 1.5 倍的 48kB(但英特尔下手的却是指令快取),L2 快取变成前代 512kB 四倍的 2MB,也许这或多或少反映了时下应用程序的行为偏好。
很厉害的内存丛集分享机制:如使用 Power10 建置丛集(Cluster)运算环境,可将所有节点的内存建成最高 2PB 的“内存池”,彼此互通有无,并根据不同的工作负载特性(如可接受存取延迟与所需容量)最佳化配置,像有严苛存取时间限制的工作,就使用节点本地端的主内存,但可接受高延迟却需要高容量者,就优先布署在远端的节点。基本上,如此高阶的先进功能,如果不是像 IBM 这样高度软硬兼备垂直整合的玩法,连想都可以不用想了。
IBM 透露 Power10 的研发工作打从 2015 年就启动,足足花了 5 年,这次 IBM 又会用力挤 Power10 这条高贵的牙膏多久呢?值得拭目以待。
挟著 Willow Cove 核心和 Xe GPU 想 4 核打 8 核的 Tiger Lake-U
最近有关心笔电的读者,不太可能没感受到网络论坛对 AMD 8 核心机种的讨论热度,像“AMD 真香”之类的评语,如森林大火越烧越旺,AMD 笔电市占率急速成长、2020 年第二季销售创下历史新高,也不是什么大新闻了。
再怎么讨厌 AMD 的人都不得不承认,7 奈米制程的 Zen 2 世代 APU“Renoir”的确是很有魅力的产品,这间公司购并 ATI 后花了十几年,终于摸出 APU 的最佳产品定位,而英特尔这两年多来的大缺货更送给 AMD 可趁之机,导致 AMD 自己也卖到出货不足,真是有够可喜可贺。至于 AMD 是否会像英特尔,将从台积电抢来的有限产能,优先供应给高获利的服务器产品线,那就不得而知了,只能说概率不低。
英特尔在 2020 年的笔电市场,唯一可“迎击”AMD Renoir 的新品,唯有具备新一代 Willow Cove 微架构核心、新世代 Xe 绘图、PCIe 4.0、Thunderbolt 4、USB 4、UPDDR5-5400、AVX-512 新指令 VP2INTERSECT(坊间有种说法:从 Tiger Lake 开始,AVX-512 终于有 1.0 版了)、GNA 2.0 人工智能推论辅助处理器、更多影音编解码格式的 Tiger Lake-U。
喔,差点忘了,Tiger Lake 制程是英特尔第三代 10 奈米,也就是所谓的“10 奈米++”,包含英特尔最新制程技术,像 SuperFin 晶体管结构和强化后的金属层堆叠之类的。
只不过,为何英特尔只发表 4 核心版本?65W 的 8 核心版本在哪里?
虽然今年流传的 4 核 Tiger Lake-U,第 12 代的 Xe 内显可略胜 Renoir 内的 Vega 8,但绝对不会有人傻傻相信 4 核 Willow Cove 可追上 8 核 Zen 2。偏向消费性产品的笔电,改变市场版图的所需动量远不及服务器,随时都可风云变色,届时天天上演“知名笔电品牌的同样型号,AMD 版痛扁英特尔版”也不会让人有一丝一毫意外。
先假装忘记“啊,英特尔又是被迫一打二”的感慨,我们总得瞧瞧 Willow Cove 和 Xe 究竟是何方神圣。
Willow Cove 大体可视为“配合 SuperFin 晶体管结构最佳化电路设计、扩大 L2 / L3 快取内存、追加抵御间接分支攻击手段(间接分支追踪机能,Windows 10 即将支援的 Shadow Stack)”的 Sunny Cove 微幅改良版,会有更高时脉这件事就无需赘述。千篇一律的“小步快跑”,让笔者连打字都开始感觉渐渐有气无力。
那么,英特尔第 12 代(还有人记得 10 奈米首发 Cannon Lake 那跟着 Palm Cove 一同短命殉情的第十代吗)内显的技术根基:Xe,又是怎么回事?坦白讲,在尚无大规模(包括消费性独显和 HPC 版本)的广泛效能测试出炉前,笔者下不了什么结论,但有大量“Optional”功能项目(固定绘图功能,FP64,Matrix Extension,Rambo Cache,多芯片延展性),企图借由更具弹性的 IP 区块与新世代多芯片封装技术,以便于打造多样化的产品线满足所有市场区隔,倒是显而易见。
听说 nVidia 下一代 GPU“Hopper”也将采取 Chiplet 路线,默默进行 EHP 计划的 AMD 则早已磨刀霍霍,包水饺大战从 CPU 一路延烧到 GPU 之日,恐将不远矣。
AMD Renoir 确定只有 8 个 Vega CU,但是……
去年关于 AMD Renoir APU 的众多谣传和流出的产品规格,一律指出 Renoir 将具备比前代 Picasso 更多 Vega 绘图核心(超过 11 个),但 AMD 在 CES 公布的资讯却让人大失所望,也不乏“AMD 其实暗藏一手,等著堵英特尔 Tiger Lake”的无责任猜想。
AMD 在 HotChips 32 开奖了:的确从 11 个减少到 8 个,却换来更高时脉、效能与能耗比。
倍增的内显总线宽度(Inifity Fabric 内当成“血管”的 Scalable Data Fabric)、高 25% 的时脉、多 77% 的峰值内存带宽、缩减 61% 芯片面积,但效能激增 27%,换言之,“芯片效能密度”是前代 225%。最让人满脸黑线的是:AMD 原先还只想放 6 个核心,后来才发现在芯片面积与功耗预算内,放 8 个也没问题,结果就开开心心塞进去了。
不过,事情还没完。约一个月前,就传出 AMD 将推出有更多 Vega 绘图核心(11 个以上)和更多 PCIe(x16)的“Big Renoir”,也就是传说中的“Lucienne”,当成现有 Renior 的“升级方案”,反正 AMD 就是不想轻易放开苦等多年难得掌握到的技术优势就对了。
但对笔者来说,看在 Vega 保有 Fluid Motion 补帧功能的分上,能活越久当然越好,据说 Zen 3 世代 APU“Cezanne”内显也还是 Vega,只希望未来 AMD 愿意在 RDNA 绘图体系,复活这个看动画的好物。
最后,笔者是不是忘记某人的主题演讲了?算了,大家只要记得“No Transistor Left Behind”是英特尔 Xe 绘图技术的口号就够了。
(首图来源:pixabay)