于AI芯片领域广阔的市场空间和光明的市场前景,国内外公司纷纷介入,各方主体希望抢占先机,竞争日趋激烈。通过对参与者的梳理,我们认为竞争主体主要分为三类:1、科技巨头,如谷歌、微软,他们拥有深厚的技术储备和强劲的资金实力,通过自研AI芯片以服务自有应用场景,最终以人工智能上层应用占领市场。2、传统芯片厂商,如英伟达、英特尔等,属于第三方芯片巨头,从传统芯片切入人工智能领域,重点打造通用型AI芯片。3、国内初创企业,寒武纪、地平线、深鉴科技等,受制于资金及规模因素,以专有芯片技术优势切入市场,和上层应用厂商深度合作。我们认为科技巨头及传统芯片厂商当前重点在于云端AI芯片的打造,国内企业的机遇在于和场景紧密结合的终端AI芯片领域。
表1:AI芯片市场竞争主体

互联网科技巨头本身业务布局广泛,有丰富的场景应用人工智能技术,其研发AI芯片的核心动力在于通过底层架构变革支撑上层应用智能程度提升,进而打造更强的生态抢占人工智能市场。比如谷歌利用自研的TPU开始服务于自身的搜索、翻译、照片、AlphaGo等业务中,微软利用基于FPGA打造的AI芯片服务于Bing搜索及云计算业务中。科技巨头的优势在于自身拥有深厚的技术底蕴和雄厚的资金实力,有足够的场景和数据对硬件进行使用验证。
谷歌在AI芯片方面采取了研发ASIC芯片的路线,取名TPU。一方面是因为谷歌具备较强的资金实力,另一方面谷歌提供的很多服务,如图像搜索、谷歌照片、谷歌云视觉API、谷歌翻译等,都需要接触到深度神经网络,因此采用定制ASIC就成为了必然。
TPU1.0于2016年发布,并应用于AlphaGo的人工智能系统上。2017年5月,谷歌在其I/O(innovationintheopen)大会上,发布人工智能芯片TPU2.0,它比TPU1.0更加强大。
谷歌的TPU1.0在数据中心和包括AlphaGo这样的人工智能当中使用,主攻运算性能,通过减少每个计算操作所需要的晶体管数量,让芯片的每单位时间运作更多的操作,进而让用户更迅速地获取智能结果。相对于TPU1.0只适用于推理环节,TPU2.0的最大亮点在于不仅可以用于推理,能够高效支持训练环节的深度网络加速。谷歌在自身的深度学习翻译模型的实践中,如果在32块顶级GPU上并行训练,需要一整天的训练时间,而在TPU2.0上,八分之一个TPUPod(TPU集群,每64个TPU组成一个Pod)就能在6个小时内完成同样的训练任务。同时,TPU2.0处理速度比传统的GPU和CPU快15-30倍,且更加节能,功耗效率提升了30-80倍等。
谷歌的TPU2.0在谷歌内部已经全面开始使用,主要应用于搜索、地图、语音识别、机器翻译、机器人、无人驾驶等板块。谷歌称不会出售TPU系统,但是会在云端开放给其他公司使用。
TPU的推出有力的完善了Google人工智能生态,结合前期推出的人工智能开源框架TensorFlow,及其对外服务的云计算平台,Google当前已经形成了TPU+TensorFlow+Google云服务+搜索等下游应用场景的强大AI生态。
图1:谷歌AI生态

与Google类似,微软自身拥有海量数据和丰富的业务条线,但是微软选择采用FPGA作为AI加速器。其在2015年已在Catapult项目中实验CPU+FPGA方案。
FPGA目前已经被应用在Bing搜索上,Bing搜索排序等任务需要尽可能迅速的返回搜索结果、降低每一步的延迟,而FPGA同时拥有流水线并行和数据并行功能,使用FPGA来加速的话,只需要微秒级的PCIe延迟,未来Intel推出通过QPI连接的Xeon+FPGA之后,CPU和FPGA之间的延迟更可以降到100纳秒,因此FPGA的应用大幅提升了微软Bing的搜索效率。FPGA同样应用至微软重要的业务板块——云计算服务Azure。微软Azure需要解决的主要问题是网络和存储虚拟化的加速,微软把FPGA部署在网卡和交换机之间,不仅节约了可用于出售的CPU资源,还提高了虚拟机的网络性能,把同数据中心虚拟机之间的网络延迟降低了10倍。微软也是第一个在公共云基础设施中部署FPGA的云服务提供商。未来几年,可以预计微软将有数百万服务器都将使用FPGA,市场有望快速增长。据英特尔副总裁DianeBryant预测,到2020年,所有主要的云计算公司(诸如国内的BAT、微软、亚马逊等科技巨头)的1/3的服务器将使用FPGA。
同样凭借FPGA,结合微软和Facebook于2017年9月联合发布的ONNX(开放神经网络交换)深度学习模型标准,及自身Azure云服务,微软也在积极打造自身AI生态,抢占AI市场。