本篇引用自合作媒体“爱范儿”经授权刊登于本站,作者:陈钟和
如果有人在四五年前说AI 对于消费者就是个玩笑,除了宣传上显得高大上在实用中几乎没用,想必还是能够获得不少的支持。但是到了2019 年,再说AI 是噱头,那么反对者可以拿出的反驳证据都足够从清晨说到午夜。
在离大众消费者最近的智能手机和移动互联网上也是如此,三年前有给智能手机厂商做广告的乙方找到我做问卷调研,对“要不要向消费者做AI 宣传”十分犹豫。如今呢,在中高端手机发布会里面,可以不跑分,但是不能不讲AI,于大众而言,大量的AI 落地应用证明,AI 正从玄学变成显学。
高通AI Engine 进化,和以往有何不同?
说智能手机,就绕不过高通的骁龙芯片,现在说智能手机的AI,也是绕不过高通的人工智能引擎(AI Engine)了。
早在2015 年,从骁龙820 芯片开始,高通就开始在骁龙平台上集成了第一代人工智能引擎AI Engine,不过这远远不是高通在AI 领域的起点。高通对AI 投入研究的开端可以追溯到2007 年,而关于人工智能处理架构的研究也早在2013 年就开始了。
面向中高端的一代神U 骁龙660 则是高通AI Engine 为更广泛的大众所用、所知的开端。作为一款2 年前发布的芯片,骁龙660 至今还在发光发热,OPPO、vivo 和小米等国内主流智能手机厂商使用这款次旗舰级处理器支撑了一代又一代主力出货机型。从支持《王者荣耀》高帧率模式,到带上AIE 后缀与vivo 人工智能助手Jovi 一起发布,骁龙660 和AI Engine 见证了移动游戏业的全民狂热,还有人工智能在手机上的落地应用。
不过熟悉人工智能技术发展,尤其是神经网络技术演进的人就知道,神经网络算法的发展实在太快了,算法迭代以月计算,复杂度呈指数级增长,不同的应用和不同的行业,对神经网络性能也有着不同的需求。面对这些需求,依靠单一硬件核心就捉襟见肘了。
因而,异构运算就必须得出场了。
在骁龙855 芯片上,高通将AI Engine 架构升级到了第四代,基于前几代的人工智能引擎AI Engine 的理念,骁龙855 移动平台集成的第四代AI Engine 延续了骁龙的异构多核可编程架构,对每个内核进行进一步的优化。并且,高通第四代 AI Engine 有个重大提升:新增了两个HVX(Hexagon 向量加速器)和一个高通自主设计、面向AI 处理的硬件核心HTA(Hexagon 张量加速器)。
虽然名字有点儿复杂,但是我们可以通俗地解释一下:采用多核异构可编程,新增两种加速器,高通第四代AI Engine 就像会七十二变的哪吒,面对各种计算任务有很强的变通适应能力,并且还有三头六臂能够同时处理复杂任务,还能聪明地根据任务的性质,进行最高效的任务分配。
在骁龙855 的第四代 AI Engine 上,涉及到AI 运算的地方主要包括Hexagon 690 处理器,Adreno 640 GPU 和 Kryo 485 CPU。
CPU 和GPU 很好理解,在骁龙855 上也得到了各种升级,这里主要谈一下AI 方面:与骁龙845 相比,Adreno 640 GPU 算术逻辑单元(ALU)有50% 的提升,进一步加速更高精度神经网络的运行;全新Kryo 485 CPU 中新增了点积指令,以进一步加速AI 性能。
更关键的改变在Hexagon 690 数字信号处理器上,不光是性能强了,内核多了,并且,高通还将以往DSP(数字信号处理器)需要处理的计算机视觉算法,放在了摄像头相关硬件模块(CV-ISP,计算机视觉影像信号处理器)上来处理,从而释放了DSP 的一部分运算能力。新增的HTA (Hexagon Tensor Accelerator,Hexagon 张量加速器)则是高通专门面向AI 处理器的硬件核心,可以自主管理硬件中神经网络计算单元,独立完成每一层神经网络的运算。
在其他的厂商宣传中,这个新增的 HTA 可能被称为NPU,或者神经网络引擎等等。
AI 有点难懂,但你可能已经离不开AI 体验了
对于大多数消费者来说,智能手机背后的处理器啊,引擎啊,异构运算都过于枯燥和难懂。性能再强大,不能让消费者不能直观的感受到,都是纸上谈兵。
然而,AI 从芯片到消费者之间的距离,物理上可能只有一层手机壳和一层主板,技术开发与融合到终端侧应用的落地,则需要全球化的协作。首先,AI Engine 要支持主流操作系统,比如Android、Windows 和Linux;还要对各种软件、工具以及各类框架的支持,比如Google 的Tensor Flow、Caffe2 等等;然后就是我们相对熟悉的,硬件上需要支持手机、电脑、无人机、VR 眼镜等等;最后就是和各种软件开发商合作了,做出各种能利用AI Engine 的预优化软件应用,让消费者最终能够上手使用。
从高通AI Engine 到手机使用场景,有一个我们最常用的AI 应用案例:手机拍照自动识别场景,并针对场景做优化,让夜景更明亮,逆光不过曝,食物更诱人,自拍更好看… 这样的智能辅助拍摄算法一部分由手机厂商自己研发,更多则是软件开发商的研究成果,如国内的旷视科技和商汤科技,就针对手机拍照做了不少的研究,很多自拍的算法,也是来自虹软。而这些软件开发商,几乎都是高通的AI 生态系统合作伙伴。以下是目前已有的清单:
- 拍摄领域:AnyVision、虹软、旷视科技、Loom.ai、Nalbi、泼辣、商汤科技、创通联达、Uncanny Vision
- 音频/翻译:有道、思必驰、大象声科、科大讯飞
- 手势:Elliptic Labs、Qeexo
- 增强现实(AR)领域:网易、商汤科技
- 汽车领域:Cogent Embedded Technology、Jungo、PathPartner Technologies、纵目科技
围绕高通的人工智能引擎AI Engine,高通打造了一个强大的AI 生态系统,在上面的AI 软件合作之外,还有腾讯、百度、亚马逊、阿里巴巴这些的云服务提供商。他们一起,给包括智能手机在内的搭载骁龙平台的终端带来降噪、夜拍、超分辨率、人脸识别、语音识别、对象检测、视频分割、背景虚化等等各种AI 功能。
Nalbi 是一家从事计算机视觉的人工智能公司,借助于骁龙855 上的第四代 AI Engine 可以完成一些以往难以在手机上实现的功能。比如先拍照,后对焦。
在很早之前,就有Lytro 这样的创业公司做了售价不菲的光场相机,提供了先拍照后对焦的功能,不过因为成本和体验原因,消费者并不买账。后续也有手机厂商尝试了类似的功能,不过因为技术还不够成熟,体验也不够好。
到了现在,不光是手机摄影的影像传感器大了,像素高了,而且处理器的速度也更快,人工智能也能在手机本地处理复杂运算,这就使得如今的“先拍照后对焦”达到了真正可用的状态。
如果说 Nalbi 这个技术是对既往技术的优化,还不够突出人工智能的厉害的话,那么实时的视频渲染就是说明了高通AI Engine 赋能的手机端人工智能有多么的黑科技了。
在 Nalbi 的演示视频里面,这位姑娘的头发颜色可以随心变换。相比于静态的图片,动态视频的渲染无疑要难得多,涉及到了人脸识别、对象侦测等等多种技术,这也证明了结合第四代AI Engine,软件厂商可以在手机端做出更炫酷更适合大众用户的功能了。
图像处理是手机端人工智能的拿手好戏,这不意味着骁龙855 和第四代AI Engine 只能沉醉光影,不能听声辨位。
通话消噪也是人工智能可以发挥的舞台,虽然手机麦克风在硬件上可以定向拾音做到一定程度上的消噪,不过要是集合人工智能的功能的话就更好了。其实在骁龙855 发布的时候,高通和合作伙伴大象声科就演示了在酒吧、体育馆、喷泉旁等人声鼎沸人海茫茫的地方的通话消噪功能。有了这个功能,哪怕是乔峰扛著录音机在身边打一套降龙十八掌也不会影响通话了。
实际上除了“纵情声色”之外,在一些硬核技术上,高通的 AI Engine 还能起到锦上添花的作用。
比如vivo 在屏幕指纹技术的投入领先于友商们,这也意味着他们要先人一步地去解决各种各样的技术问题。相比于传统的电容式指纹识别,屏下光电指纹识别的技术原理完全不同。低温干手指和强光直射等环境是屏幕指纹识别中典型的难识别场景。这种场景下,就需要用到“补录机制”,不过这也意味着处理时间的增加。
在传统的处理方式中,指纹识别的数据处理都是通过CPU 单核单线程完成的,不过在低温干手指、强光直射这类“刁钻场景”下,屏幕指纹识别所需的图像增强和对比识别的处理过程相对复杂,对硬件性能的要求也更高,传统基于单核CPU 运算的解决方式难以实现畅快的解锁体验。后来vivo 和高通就合作起来解决这个问题:由于DSP 与单核CPU 相比,在屏幕指纹识别的核心处理流程上具备数倍的神经网络和矢量计算的优势,利用DSP 加速,不仅解锁速度快,而且还更安全。
在刚刚谈论到的这些之外,我们还能看到许多基于高通AI Engine 的一系列应用:网易有道的实时AR 翻译,商汤做出的实时视频渲染风格转换,旷视科技的3D Animoji 等等。
其实,当我们拍照出现自动场景识别,屏下指纹识别用到了DSP 加速,通话的时候有智能降噪的时候,就说明了,AI 其实开始成为一种基础能力了。不过有的时候,往往就是基础能力,得不到消费者的感知和了解。
再看看上面那张高通AI Engine 发散开来的AI 生态系统,就会发现,在未来,AI 不光会是在手机里面会占有越来越重要的位置,随着5G 的普及,联网设备会空前增加,天上飞的无人机,地上行驶的汽车,工厂里的机器人等等都将与AI 产生不可分割的联系,AI 将无处不在。