首个为AI而生的服务器CPU诞生,GPU、FPGA、TPU如何回应?

作者:科技茱比莉Jubilee公众号:IT-Jubilee2018-01-12

摩尔定律难题,另一条解题路径已经被业界认可……

12月问世的POWER9,恐怕是第一个喊出为AI而生的服务器CPU了。从通用CPU到AI定制CPU,到底反应了整个业界怎样的趋势?
如果说摩尔定律是芯片产业自循环的产物,那么为应用而生的芯片则体现了IT产业的整体趋势。
“芯片上的晶体管数量每18-24个月增加一倍。”1965年摩尔定律问世。今天,摩尔定律已经成为困扰半导体行业超过50年的难题:制程工艺不可能无限缩减,“更快更小”正遭遇能耗瓶颈。
进入14纳米时代,更强的计算能力就必须更多更快的CPU吗?这个疑问的初始假设是通用的计算能力,而在工作负载类型多样化的时代,处理器发展趋势的话题已经跳出了自身半导体行业的格局。

IBM全新POWER9处理器旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用14纳米技术,嵌入80亿个晶体管。
从整个服务器CPU芯片行业来看,有三种截然不同的风格——英特尔和AMD代表“x86”,高通和Cavium代表“ARM”,IBM代表“POWER”。尽管CPU性能仍然在增长,但进化速度相比前十年已经显著减缓。加速协处理器即比通用CPU更加专注于特定工作负载的处理器得到追捧,尤其是AI这种计算密集型工作负载,不仅让GPU、FPGA作为加速协处理器翻开了新的一页,谷歌的TPU也因运而生。
从整个IT产业角度看,以具体工作负载为导向的异构计算大行其道,那么CPU怎能无动于衷呢?
IBM POWER9这次直接了当表明身份——为AI定制,那么英伟达的GPU、赛灵思的FPGA、谷歌的TPU又是如何回应的?
就处理器系统而言,POWER9试图通过最新的技术和联盟来解决系统短板——异构处理器是否有足够的带宽与系统的其它部分进行通信。
POWER9相比POWER8,采用PCI-E 4.0、新一代NVIDIA NVLink及OpenCAPI的系统,这几项技术的结合使其能够加速数据传送,IBM内部测试表明,在计算速度方面超出基于PCI-E 3.0的x86系统9.5倍。这意味着什么呢?
POWER处理器的CAPI(Coherent Accelerator Processor Interface)技术,让I/O的加速器可以和CPU共享它的内存、缓存,这是IBM对业界开放的标准,用以互补业界标准PCI-E。在2016年10月IBM还成立了基于CAPI 2.0技术的OpenCAPI联盟,这大大加速了CPU和GPU、FPGA甚至TPU之间的通信,因此也吸引了包括AMD、谷歌、赛灵思、Mellanox、Micron等企业加盟。尤其是POWER9可以支持最新的英伟达NvidaNVLINK技术,可大幅提升GPU与CPU之间的数据交换速度。
由此可见,对于首个针对AI设计的服务器CPU——POWER9,将加速POWER和GPU、FPGA、TPU之间的合作。

1
软件定义芯片的趋势
既然针对工作负载,AI的提速不仅与处理器相关,也与软件息息相关。深度学习是一种机器学习方法,目前正在快速发展。通过数百万次计算及大量的数据分析来提取和排序信息,可以甄别与排列数据最为重要的方面。为了满足这些日益增长的行业需求,IBM于四年前开始着手设计POWER9芯片,构建一套全新架构,用于管理自由流动的数据、流传感器,以及基于Linux操作系统的数据密集型人工智能和深度学习算法。而且,POWER9专门为提高Chainer、TensorFlow和Caffe等通用AI框架的性能而设计。
比如,今天很多AI开源框架只是跑在一台服务器上,通过POWER9密度的增加,支持GPU个数从4个增加到6个,使得单机性能大幅度提升。
值得关注的是,IBM推出流行的开源机器学习框架TensorFlow的新分布式计算版本。这个版本的TensorFlow将通过利用GPU增强服务器的虚拟化集群来显著缩短深度学习训练时间(从数周到数小时)。POWER9就可以支持这种横向扩展能力,让开源框架跑在多个服务器上,从而进一步提升AI效率。
2
谷歌和美国能源部在用POWER9
尽管IBM才宣布POWER9上市不久,谷歌在去年就宣布,正在开发基于Power9处理器的服务器体系结构,并且POWER架构在工具链中得到完全支持。
谷歌Platform副总裁Bart Sano表示,谷歌对于IBM在开发最新的POWER9技术方面取得的进展感到非常兴奋。POWER9 OpenCAPI总线和大容量内存功能为谷歌数据中心的创新提供了更多机会。
实际上,业界已经在期待谷歌对POWER9的支持力度比POWER8更进一步:谷歌已经做了大量工作,将相关软件移植到POWER8上,并构建了大量硬件设计,而IDC服务器和计算平台研究经理Peter Rutten就透露,谷歌已经在其数据中心部署POWER9。
此外,POWER9的首批客户还包括美国能源部,未来两个季度IBM为美国能源部的Summit和Sierra超级计算机安装超过一万个节点,耗资3.25亿美元。
值得一提的是这两台超级计算机的指标——橡树岭国家实验室的Summit HPC系统预计将达到每秒200 petaflops的速度,劳伦斯利弗莫尔国家实验室的Sierra超级计算机预计将达到每秒125 petaflops。就指标来看,也许将称霸明年的超级计算机HPC TOP500的榜单。
翔snowman 原创出品
公众号转载需注明来源
科技茱比莉
有视角的科技观察 有态度的科技评论

分享连接:http://www.5stu.com/i3844.html