中国的超算那么厉害,为什么不用到PC中?

分享到:

QQ截图20171223002908

最近EDN小编看到网上有讨论,为什么中国超算很牛,但CPU不行的话题。好多年前,小编还在读大学时就注意到了这个问题,但现在还是这样吗?我想我们可以从超算用CPU和民用CPU这两个方面来讨论。首先我们来看超算用CPU。

神威•太湖之光登顶500强榜单

我们先看下这个新闻。去年6月20日德国国际超级计算机大会(ISC)公布了新一期世界计算机500强榜单,我国最新超算神威•太湖之光登顶。最受关注的是,神威•太湖之光实现了核心处理器的全国产化。

神威•太湖之光击败了霸占榜首3年的“天河2号”。运算速度达到93PFLOPS,理论最高速达125.4PFLOPS。这一数值约为“天河2号”的两倍。

区别于天河2号采用的英特尔Xeon E5-2692v2 12核处理器,神威•太湖之光首次采用国产核心处理器申威26010(SW26010)。它集成了260个运算核心,每块运算能力为每秒3万多亿次,约等于20台家用计算机……

在超算方面,异构计算已取代同构计算

在超算方面,异构计算已经基本取代了同构计算。而且,随着Intel大力发展CPU+FPGA,AMD大力研发CPU+GPU,异构计算也将越来越多地进入人们的视野。在国外公司积极布局异构计算的同时,国内公司也不甘落后。

事实上,最近几年曾经在TOP500刷榜,或者排名靠前的超算都采用了异构计算——中国神威•太湖之光、美国泰坦、中国天河1号和天河2号。

泰坦有18688个运算节点,每个运算节点由1个16核心AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成,共计299008个运算核心,属于CPU+GPU。

天河1号使用了14336片Intel Xeon X5670处理器和7168片NVIDIA Tesla M2050高性能计算卡,属于CPU+GPU。

天河2号有16000个计算节点,每个节点由2片Intel的E5 2692和3片Xeon PHI组成,共使用了32000片Intel的E5 2692和48000片Xeon PHI,属于CPU+众核芯片。正在升级的天河2号则将美国的Xeon Phi换成了自主研发的矩阵2000,属于CPU+DSP。

申威处理器强在众核堆算力

仔细研究我们不难发现,超算的算力大小并不仅仅依赖CPU。超算需要的是浮点算力,而目前市售CPU先天就有不足,比起GPU和其他协处理器都差得远。

在天河一号和天河二号中,真正为超级计算机提供算力的是GPU和协处理器。那时候处理器都是直接买的,天河一号和天河二号基本上用的是Intel Xeon E5/Xeon Phi,还有AMD的显卡。之后美国开始对华限制出口,主要是禁运Xeon Phi、NVIDIA Tesla等产品,CPU倒是没那么严。

我国在神威•太湖之光上就开始使用自研处理器了。记得去年清华大学微纳电子学系魏少军教授曾表示,报纸上、媒体上或者专家讲的一些话,把我国神威•太湖之光的发展和美国对我们的禁运连在一起是胡说八道。神威•太湖之光用到的计算机芯片是我国2009年就布置的课题。我国经过7年的时间努力做下来的,和美国制裁没有半点关系。

总体来看,神威•太湖之光整套系统使用了40960颗处理器,总计拥有10649600颗核心、1.31PB内存,理论峰值性能125435.9TFlops,实际最大性能93014.6TFlops,效率达74%,相比之下天河二号的效率只有62%。

但是,神威这么强的运算能力实际是堆出来的——SW26010本质上和Intel LGA接口的Xeon Phi的设计思路相似,是众核堆算力,但超算比的就是并行度和设备的规模。另外其在工艺方面是28nm,能效比Intel强得多。

ab8a80d3-765c-43b8-8e7b-64f4f5040bee

7d3c0bb1-c61e-471a-ba68-f64249f18ab5
神威的处理器虽然看起来并不是很出色,但是整个超算强就强在并行处理十分巧妙。我国CPU落后人家这么多年,还被技术封锁,短期内超越并不十分可能。因此,我们科研人员将目光转向了处理器的相互连接上面,这也是为什么神威能够被美日等国称赞的点。

另外它能效比也非常高。神威的能耗为15.371MW,这个能耗看起来挺大,但是比天河二号的能耗17.808MW小。神威在提升浮点运算能力的同时,还把能耗降下来了。

但是,就算最新的“神威•太湖之光”也存在着短板。它使用的是相对较旧的内存芯片技术,这意味着与美国目前运算能力最强的超级计算机相比,它的处理器数据存取速度会受限。另外,这台新型中国超级计算机仍旧是基于美国的光纤网络技术研发的,该技术主要用于连接数以千计的微处理器芯片。

另外,除了CPU设计的问题,CPU加工也很重要。一方面需要非常好的工艺流程,另一方面制造高性能微纳电子器件需要很精密的特种仪器与设备。这些工业仪器设备一台动辄几百上千万美金。其背后也有一个庞大的现有利益链条。

比如光刻机,做CPU最核心的设备。全世界最好的光刻机是荷兰人制造的,长期供应Intel、高通等少数企业。荷兰人不敢得罪这些大金主,所以也就不太可能把最好的设备卖给中国。

神威的CPU既然可以众核堆算力,那我们什么时候可以用到PC中?

市场上不可能买到SW26010这类处理器,而且它给PC用也毫无意义。

现在PC端CPU已经被x86占领,移动平台已经被ARM占领。这两个架构在两个平台上已经积累的大量的软件基础,互相之间都很难进军对面的领域。Intel在移动领域狂砸了一百亿美元,最后的结果也只是大败而归。

另外一方面,神威•太湖之光使用的SW26010的众核架构并不适合消费级CPU,原因就是在于单核性能羸弱。曾经有一个很经典的比喻,把CPU比作四个大学教授,把GPU比作几千个小学生。这样看,SW26010和Intel的Xeon Phi,大概相当于几十、几百个中学生了。

即使是以浮点运算为标准,SW26010一个核心也只有不到12GFLOPS的水平,而Intel的CPU单核浮点运算能力又是多少呢。

5d693f7c-92ce-49b8-8bdb-56586f5d3ae3
Haswell i7 4770k在使用AVX2指令集以后,双精度浮点性能可以达到224GFLOPS,单核已经达到56GFLOPS,相比IVB已经翻番。不过这带来的实际体验上的差距基本上就是挤牙膏,甚至还因为加入的指令集给了Haswell一个绰号——Hotwell。

当然CPU不是专门拿来做这种浮点运算的。Intel最新的协处理器Xeon Phi包含有72个协处理器核心,通过更为强大的AVX512指令集也实现了3TFLOPS的运算能力,一个核的浮点运算能力来说并不输Haswell和Skylake多少。如果拉到相同频率,可能比Skylake还要强。这也只是使用Atom核心改进出来的协处理器而已。即使被AVX512赋予了强大的浮点运算能力,当民用CPU用单核也不过还是在Atom的水平上。

而无论从功耗还是从浮点运算能力进行判断,SW26010在功耗如此低,而且单核浮点能力远弱于Xeon Phi的情况下,单核恐怕可能也只有Atom的几分之一了,可以说是普遍弱于现在的PC以及手机处理器。

而民用的应用大多数比较吃单核,基本上2-4个核就能满足日常需求,多了也没用,e5拿来跑游戏明显不如i7。当然在超算上就不一样了。大量并行度高的运算,并不是太在意单核性能,所以SW26010还是只能用于超算平台。而且对于超算来讲,也不是所有的运算都适合神威•太湖之光这种架构。

所以说,SW26010这种CPU和民用市场没关系。另外,除了适应不了市场外,没专利、没授权也是SW26010无法商用的原因。

继续阅读
MIPS或RISC-V:恐难担当华为的未来

MIPS阵营最近的大新闻,是从2018年12月开始,这个架构被其新的拥有者Wave Computing公司宣布开源。该公司在“开放MIPS(MIPS Open)”计划中表示,他们会开放对32位和64位设计最新版本的网络访问,而用户无需像使用ARM或者X86那样,给该公司任何许可或特许使用费。

华为海思Hi1620芯片发布在即:7nm制程,ARM架构

北京时间5月25日,近日有供应链知情人士透露,华为海思的全新处理器并没有受到此次事件影响,依旧将于今年5月底正式发布。这款处理器将为麒麟轻旗舰处理器,还是会采用ARM架构。据了解,这款麒麟处理器定位为轻旗舰,主要用于智能手机上。

5G当前发展火热,联发科顶住压力投入7nm工艺5G处理器研发

魅族公司曾经表示他们可能是唯一一家不依赖高通而做大的公司,前几年魅族一直在使用联发科的处理器,而联发科也把魅族当作合作典范,当年为了征战高端市场推出的Helio X30芯片率先使用了10nm工艺,被魅族用在旗舰机Pro 7上。可惜故事的发展没有按照魅族、联发科的脚本走,Helio X30没能撑起联发科的高端梦,反而让联发科业绩大受影响。

三星不敢再次落后于人,争取量产7nm EUV工艺用于自家新处理器芯片

在7nm工艺上,三星没有争取到多少客户,而且三星选择直接进入EUV时代,进度也不如台积电,自家的Exynos 9820处理器都没赶上7nm EUV工艺,好在今年6月份三星真的能够量产7nm EUV工艺了,将推出Exynos 9825处理器,用于下半年的Galaxy Note 10等手机上。

比现有AI算法更快更准确?麻省再推新算法加速AI优化设计

今年5月,麻省理工学院的一个研究团队将展示一种名为“神经架构搜索”( “neural architecture search” )的算法,该算法可以使被AI优化过的AI设计过程加速240多倍。 这有利于人工智能更快、更准,并且在实际范围内广泛应用于图像识别算法和其他相关应用。