位于加州的新创独角兽公司 Cerebras 于 19 日公布据称是世界最大的电脑芯片──晶圆级引擎(Wafer-Scale Engine,WSE),以及有关这片保密约 3 年之久的晶圆级 AI 芯片细节。尽管仍有许多悬而未决的问题,但这种新方法可能标志半导体产业的重要里程碑,毕竟在这个产业,历来就受单一芯片遮罩尺寸的限制。
由 Cerebras 设计的 WSE 芯片外观尺寸比标准 iPad 稍大。Cerebras 表示,从自驾车到监控软件,单一芯片就能驱动复杂的 AI 系统。然而某专家却表示,在许多资料中心里,安装这种创新证实是不切实际。
Cerebras 设计了一个由 84 颗互连芯片组成的晶圆,以当作用于计算与内存储存的装置,并由超高速晶粒结构(ON-die Fabric)互连。虽然在芯片上打造一个超级电脑听起来是个极棒的主意,但制造晶圆级的芯片阵列并不适合胆小或才智一般的人。
此外,如果 Cerebras 的方向及做法是对的,那么 AI 可能只是晶圆级整合的开始;因为目前应用程序对效能的要求愈来愈高,并超过 CPU 能提供的效能。如果 Cerebras 完成第一个 AI 导向实作后,能将注意力转向浮点运算核心,那么晶圆级方法就可能彻底改造当前的高效能运算。
Cerebras 内含 400,000 颗核心,以台积电娴熟 16 奈米制程为后盾
Cerebras 是由现任硬件架构师的 Sean Lie 和曾经担任微服务器新创公司 Sea Micro(2011 年被 AMD 购并)创办人兼首席执行官与现任首席执行官的 Andrew Feldman共同创办。Feldman 的新公司现在雇用近 200 名工程师,其中许多人都是 Sea Micro 的旧员工。Cerebras 已募集逾 1.2 亿美元资金,最近的市场估值达 8.6 亿美元。当大多数 AI 半导体新创公司专注于构建适用执行深度神经网络所需矩阵和向量处理的更高效运算核心阵列和芯片内内存(On-chip Memory)时,Cerebras 决定直接跳过数学优化,反而全心全意努力实现极端的可扩展性。
如同百度资深研究人员 Greg Daimos 所言,在超大资料集训练大型模型将花费数月或数年的关键路径(Critical Path)运算时间,这使这类训练对现有系统的任何真实世界问题都不切实际。但 Cerebras 宣称,其 WSE 芯片能将复杂资料的处理时间,从几个月降低到几分钟。
目前最强的台式电脑使用 CPU 约有 30 颗运算核心,至于功能最强大的 GPU 有多达 5,000 颗核心。Cerebras 推出的新芯片内含 400,000 颗核心,所有核心皆透过高带宽连接相互链接。Cerebras 表示,这使它在处理复杂的机器学习挑战方面更具优势,与其他方案选项的组合相比,延迟更小、功耗更低。
Feldman 表示,Cerebras 已“克服了几十年来一直让芯片尺寸受到限制的技术挑战”,他更进一步指出,训练学习时间的减少,更将整个产业进展的一大瓶颈彻底消除。目前 Cerebras 已开始供货给少数客户,但尚未透露芯片的价格。
Cerebras 在本周于史丹佛大学举行的年度 Hot Chip 大会,分享了一些设计细节。芯片是由台积电采用成熟 16 奈米制程打造的 300mm 晶圆切割而成。以下列举元件的基本规格:
- 2 兆颗晶体管
- 46,225mm2 晶硅
- 400,000 颗 AI 可程式核心
- 18GB 超快晶粒内内存(SRAM)
- 9 PB/s 内存带宽
- 100 PB/s Fabric 带宽
- 稀疏性本地最佳化(避免乘以零)
- 支援与 TensorFlow 与 PyTorch 等标准 AI 框架的软件相容性
- Cerebras Unveils AI Supercomputer-On-A-Chip
- Cerebras reveals world’s ‘largest computer chip’ for AI tasks
(首图来源:Cerebras)