环顾历史名将如拿破仑、古德林、隆美尔,乃至波斯湾战争的美国陆军将领,一谈到“攻势”,几乎无不强调“追击”的重要,让敌军毫无站稳脚跟巩固和重组的机会而一泻千里。
反过来说,当这简单道理套用到商业竞争,意义就不外乎“产品如果无法准时到位(Time To Market)”,特别是在人工智能这种一堆人还搞不清楚状况的新兴应用领域,或像半导体这种成本和售价会随技术演进快速滑落的产业,很可能一下子就被竞争对手一举冲垮,让产品开发工作左右支绌,无法建立一条稳固的市占率防线,接着陷入恶性循环,难以翻身。
2016 年 3 月 5 日:nVidia 发表“总算摆脱黏了 4 年的台积电 28 奈米制程”、推进到台积电 16 奈米和三星 14 奈米 Pascal,支援 FP16 半精确度浮点、8 位元整数与相对应的内积向量指令(Vector Dot Product),也具备 NVLink 连接 8 颗 GPU 的延展性,踏出 nVidia GPU 进入人工智能应用的第一步。
2016 年 5 月 Google I/O:Google 发表第一代推论用的第一代 TPU。
【延伸阅读】:【Hot Chips 29】浅谈 Google 的 TPU
2016 年夏天:英特尔购并“声称产品效能将比 GPU 高至少 10 倍”的 Nervana,就为了跟 nVidia GPU 竞争。
【延伸阅读】:英特尔将出资高于 4 亿美金购买机器深度学习的新创公司 Nervana
2016 年 11 月 17 日:英特尔公开 Nervana 代号 Lake Crest 的初步成果,但制程仍停留在台积电 28 奈米,且过没多久就因 nVidia 推出 Volta 而失去意义。
2017 年 3 月 29 日:nVidia 发表采用 Tegra X2 的“嵌入式人工智能运算装置”Jetson TX2,严格说来也算是 nVidia GPU 应用的延伸,但早从 2014 年 4 月底就出现的 Jetson 产品线,怎么看都有一股“几年来替进攻手机平板都以失败收场的 Tegra 系统单芯片找出路”的味道。
2017 年 5 月 Google I/O:Google 继续“按表操课”发表支援浮点运算(Bfloat16 浮点格式)、可同时用于训练和推论的第二代 TPU。
2017 年 6 月 21 日:nVidia 公开台积电 12 奈米制程“原本产品时程表并没有”的 Volta,内建 640 个 Tensor Core(张量核心),可执行 4×4 16 位元浮点乘积和,应用于特征辨识的卷积运算(Convolutional Neural Network,CNN),这让 Volta 成为 nVidia 史上首款针对人工智能量身订做、兼顾“学习/训练”与“推论/预测”的 GPU 微架构。
Volta 的训练效率高达 Pascal 的 12 倍,推论性能也达 6 倍之谱,这让 Nervana 的“Lake Crest 至少有 GPU 十倍”变得毫无意义,nVidia 也借由 NVswitch 打造出 16 颗 GPU、数量为 DGX-1 两倍的 DGX-2,英特尔只能重新设计产品,也一再延误开发时程,直到承诺 2019 年底推出新芯片,届时距离购并案已超过 3 年。
2017 年 8 月 14 日:AMD 发表“早就简报讲很久”的 Vega(Global Foundry 14 奈米制程),支援 FP16 / INT16 / INT8 包裹式(Packed)计算,并锁定 FP16 与 INT8 精度,新增约 40 个新指令,也为影像匹配此类应用,提供 SAD(Sum of Absolute Differences,绝对误差和算法)指令。AMD 当然也会宣称“拥有完整的 Software Stack”,至于成效如何,就请各位自由心证,笔者不予评论。
2017 年 11 月 8 日:来自 AMD 的 Raja Koduri 空降英特尔并担任资深副总裁,宣示打算“砍掉重练”整个绘图技术,抛弃对 x86 指令集相容性的执念,从头到尾打造货真价实 GPGPU,2019 年 3 月公布 GPU 架构的称呼“Xe”和一个让人摸不着头绪、看起来很像“在所有硬件平台包含 FPGA 都能跑的 OpenCL”的“软件堆叠”OneAPI,就是最后的解答。
【延伸阅读】:英特尔与 AMD 把各自擅长的 CPU、GPU 送作堆,背后脉络是什么?
2018 年 5 月 Google I/O:Google 再接再厉,发表整体效能和规格是前代两倍的第三代 TPU,不过依然还是 Google 自研自用就是了。
2018 年 7 月 23 日:从 Larrabee 开始挣扎超过十年,英特尔总算完全放弃“超级多核心 x86 处理器绝对无所不能”的南柯大梦,宣布放弃 Xeon Phi 产品线。有趣的是,停产通知提到“市场对产品的需求已转移到其他英特尔产品”,但这些产品并不存在于英特尔产品线,没有任何产品提供类似 Xeon Phi 的性能和功能,这些需求“转移”到 nVidia 的概率可能还高一点。
笔者 2017 年底就预期 Xeon Phi 的处境非常危险,“x86 义和团”的最后碉堡即将失守,不幸一语成谶,早知就去买乐透。
【延伸阅读】:【x86 兴衰史】奠定 Intel Xeon Phi 技术基础的“x86 处理器显卡”:Larrabee
2018 年 7 月 26 日:Google 发表适用物联网、“可以在消耗极少资源和能源的情况下提供绝佳效能,因此能够在边缘部署高精确度 AI”的边缘推论用 TPU,这也让 Google TPU 踏出自家资料中心,与一群盘据半导体市场已久的豺狼虎豹捉对厮杀。
【延伸阅读】:Google 物联网战略启动,推 Edge TPU 进军边缘运算
2018 年 8 月:nVidia 发表采用 Xavier 系统单芯片的 Jetson Xavier,同时应用于边缘 AI 运算及自动驾驶系统。
2018 年 9 月 20 日:采用台积电 12 奈米制程的 Turing,融合两者之长,结束了短暂的“消费型”(Pascal)和“专业型”(Volta)分立局面,Tensor Core 增加了新 INT8 和 INT4 精度模式,FP16 半精度能完整支援经常用到的矩阵融合乘加(FMA)运算。
【延伸阅读】:NVIDIA Turing 新品发不停,Tesla T4 聚焦资料中心推论应用
此外,Tensor Core 也不再只是“限定专业应用”,可用来执行消除混叠的深度学习程式(深度学习超级采样,DLSS),利用先前向执行 Neural Graphics Framework 的超级电脑,喂食游戏画面进行训练神经网络的学习成果,渲染出接近 64 倍取样的画面滤镜,再套用回玩家的游戏画面,柔化画面锯齿边缘。
2019 年 1 月 7 日:AMD 发表采用台积电 7 奈米制程的 Vega,芯片大幅缩小,性能大幅提升,然后我们现在也知道为何 AMD 初代 7 奈米制程 APU 的绘图核心还是 Vega,不是更新一代的 Navi 了。
2019 年 3 月 19 日:nVidia 再次发表“边缘 AI 超级电脑”Jetson Nano,也开始有开发者比较与 Google Edge TPU 的优劣胜负。
2019 年 5 月 21 日:nVidia 利用 Anandtech 的报导,倒打英特尔一耙,在官方部落格狂吃英特尔某篇官方文章《Intel CPU 在推论胜过 nVidia GPU》的豆腐。预计 2020 年第二季推出的英特尔下一代 Xeon 平台 Whitley,首款 CPU Cooper Lake(还是继续挤 14 奈米制程牙膏)会支援 Bfloat16 浮点格式,届时各位可以期待 nVidia 会不会再如法炮制一番。
【延伸阅读】:英特尔强调 NVIDIA Tensor Core GPU 极适合推论作业的原因
2019 年 7 月 7 日:AMD“扩大制程领先优势”发表台积电 7 奈米制程的 Navi,重点集中在结束漫长 GCN 时代的全新 RDNA(Radeon DNA)SIMT 执行单元结构,在人工智能相关并无着墨,但业界盛传第二代 RDNA 将支援 Google Tensor Flow 的 Bfloat16 浮点格式,也有人在担心搞不好这又会让 AMD 显卡再被一大票数位货币矿工抢得一干二净,再度上演有钱也买不到显卡之戏码。
2019 年 8 月:nVidia“持之以恒”继续在 HotChips 谈论自家多芯片可扩展式推论芯片研究案,意思就是 nVidia 故意宣示除商品外,还有“余裕”进行额外前瞻性技术研发工作就对了。
2019 年夏天,英特尔看似开心的跟百度宣布合作,购并 Nervana 满 3 年的人工智能芯片,看似前程似锦,连潜在客户都谈好了。
【延伸阅读】:百度、英特尔联手打造新一代 Nervana NNP 芯片,效能提升 3~4 倍
【延伸阅读】:英特尔发表最新 AI 芯片 Nervana,把 Google、台积电技术都用上了!
2019 年 11 月 8 日:NVIDIA 宣布推出“全球尺寸最小的边缘 AI 超级电脑”Jetson Xavier NX,不知不觉中,在这几年内,nVidia 的 Jetson 家族已枝繁叶茂。
【延伸阅读】:NVIDIA 发表全球最小边缘 AI 超级电脑,Jetson 家族让新创公司面临更大压力
2019 年 11 月 13 日:英特尔总算“使命必达”准时在 2019 年底推出 Nervana NNP 产品线,包含深度学习导向的 NNP-T1000(Spring Crest,性能号称是 Lake Crest 的 3~4 倍)与推论专用的 NNP-I1000(Spring Hill),宣称样品已经送到客户(百度、Facebook)手上,不只现场实际较量 NNP-I1000 和 nVidia T4,可用不到 2 倍数量达成 3.68 倍的效能,也同时宣布 2020 年推出“20 倍边缘推论性能”、源自 2016 年某金额不明购并案的 Movidius 体系产品。
但短短一个月后,2019 年 12 月 16 日,英特尔宣布以 20 亿美元收购以色列 AI 芯片新创公司 Habana Labs,瞬间风云变色,2020 年 2 月就传出英特尔将“部分放弃 Nervana”、停止 NNP-T1000 开发的消息,但有鉴于 NNP-I1000 本质上根本就是“纯正英特尔血统”的产物,这也意味着 Nervana 并购案完全失败了。
【延伸阅读】:3.5 亿美元收购失败?英特尔将停止 NNP-T 开发,专注 Habana Labs
“刚刚好”整件命案的所有参与演员:命案现场的英特尔、Habana Labs、坐在板凳一旁看戏的 AMD 与 nVidia,都是 2019 年 IEEE Hotchips 31 的台上贵宾(大概因家大业大格局大,活动的餐点饮料包含酒类据说都由英特尔赞助买单),我们就来看看,英特尔耗费三年多做出来的成果,以及瞧瞧 NNP-T1000 为何被闪电腰斩的可能原因。
毕竟现在这票所谓人工智能深度学习等的新兴应用,无论从硬件架构到资料处理格式到框架到应用程序函式库等等,很多部分都是高度客制化,少有业界共通的公开比较基准,单纯比较数字“赛猪公”的意义并不大,笔者也不会在这里仔细介绍英特尔两颗芯片的技术细节。
但透过规格比较,可清楚看到两件事实:
Spring Crest 和 Spring Hill 根本是两个完全不同的技术体系,前者完全继承 Nervana,后者则是根正苗红的“英特尔本家”,大量引用现有 Ice Lake 技术。
Nervana 的预设对手就是 nVidia 的旗舰级 GPU,连晶圆代工业者都是台积电。
Nervana NNP-T1000 惨遭杀害,究竟有哪些可能的凶手?
- 成本太高:都这个时候了,还在台积电 16 奈米制程?且听说台积电 16 奈米的主要产地正位于因武汉肺炎而封城的南京?但 Habana Labs 目前两颗芯片也都是台积电 16 奈米耶?这里由不合逻辑。
- 政治因素:英特尔不愿意看到重要的产品交给台积电生产?可是这件事不是很久以前该知道了吗?Habana Labs 也是台积电生产啊,所以这也不合理。
- 客户不满:难道先期导入的客户并不满意产品的实际表现?
- 需要客户:Habana Labs 已抢到“超大规模的客户”,甚至“抢走英特尔手上煮熟的鸭子”,所以才有 20 亿美元的购并价值?
- 软件不行:手上可掌握的软件资源和“生态系统”技不如人?
- 规格不利:Hanaba Labs 的推论芯片 Gaudi 可支援原生的以太网路界面走 RDMA,这难道对大型云端客户来说,算是杀手级的规格优势?
总之,只有英特尔和时间才会告诉我们谁是真正的凶手,也很有可能真相永远不会大白。
到头来,从 Nervana 到 Hanaba Labs,不论训练还是推论,头号假想敌依旧是 nVidia 的 GPU,依然还是 Volta 和 Turing,连比较图的颜色都刻意挑“nVidia 绿”。
但说到英特尔购并公司这件事,半导体制程优势开始崩溃,刚好就是宣布要“从 PC 公司转型为驱动云端计算和数以亿计智慧互联计算装置”,也差不多是“最后的英特尔 x86微架构”Skylake 上市时,接着一直花大钱“生气乱买公司”才开始的。
- 2015:Altera 167 亿美元。
- 2016:Nervana 3.5 亿美元。
- 2016:Movidius 金额不明。
- 2017:Mobileye 153 亿美元。
- 2019:Habana Labs 20 亿美元。
这样一路看下来,似乎瞬间明白了什么。
(首图来源:英特尔)