解密“神威·太湖之光”如何成为世界超算冠军

分享到:

6月20日,第 23 届高性能计算(HPC)国际顶尖会议 ISC2016 在德国法兰克福举行,会上提前公布第 47 次 HPC TOP500 榜单,中国的神威太湖之光系统(Sunway TaihuLight System)排名第一。 比夺冠更令人惊喜的是,在最核心的CPU处理器技术上,我们也终于不再依赖国外技术。天河二号使用的是Intel Xeon、Xeon Phi处理器,神威太湖之光则是我国自主研发的“SW26010”。

神威太湖之光系统

(神威太湖之光系统)


强在哪里

根据目前已知的资料,SW26010采用的是64位RISC(精简指令集)架构,但据称又有些类似Intel Xeon Phi,是专为高性能计算研发的。

每一颗这样的处理器都集成多达260个核心(每四个核心一组),主频1.45GHz,理论浮点性能3TFlops,搭配32GB内存。

整套系统使用了40960颗处理器,总计拥有10649600颗核心、1.31PB内存,理论峰值性能125435.9TFlops,实际最大性能93014.6TFlops,效率达74%,相比之下天河二号的效率只有62%。

SW26010处理器的工艺不详,但整套超算的能效很高,总功耗只有15371千瓦,比天河二号还低了2437W,因此在关注能效的Green500排行榜上同样名列前茅。高举第三位。

在号称“超算奥斯卡”的2016年度戈登贝尔奖的6个提名中,“神威太湖之光”已经拿下了3个,分别涉及大气、海洋、材料三个领域的应用,今年有望实现我国在这个奖项上零的突破。

其实早在2011年,上一代产品神威蓝光(Sunway BlueLight MPP)就曾经获得国内TOP100超算排名桂冠,也是中国第一款自主芯片的千万亿次超级计算机。
 
申威26010

“太湖之光为啥这么牛?它拥有一颗巨强的“芯”-申威26010,上海高性能IC设计中心设计的国产高性能处理器。该处理器包含有260个处理核,单片峰值性能为3.06Tflops/s。天河-2单节点采用2个Intel Ivy Bridge处理器+3个Intel Xeon Phi类GPU加速器芯片,这5个处理器芯片峰值性能相加约为3.431Tflops/s,也就是说一颗申威芯片性能大致相当于天河-2中Intel 5个芯片的峰值性能之和!”

这次,神威太湖之光使用我国自主研发和制造的 CPU 处理器——申威 26010(SW 26010),采用众核+CPU架构,含有将近 1065 万个内核,主内存 1.31 PB。SW 26010的芯片由上海高性能集成电路设计中心研发,含有 4 个核心组,每组含有 65 个内核,由64个计算核心(CPE)、一个管理核心(MPE)和一个内存控制器构成。

神威太湖之光核心组示意图

(神威太湖之光核心组示意图)

64个计算核心排列为8x8的矩阵。4个内存控制器总共提供了136.5GB/s的带宽。每组内部有自己的专属内存空间,组间通过片上网络(NoC)进行通讯。片上网络还连接着系统接口(SI),供芯片同外部设备通讯。

神威太湖之光专为提升运算速度设计,简单的架构正是它运算速度胜过其他高能耗 HPC 系统的原因。不过,申威芯片采用定制64位指令集,频率处于中等水平(1.45GHz),而且每个核心只能执行一个线程(不支持超线程),软件支持也没有Intel那么丰富。但尽管如此,中国凭借一个完全基于中国设计、制造的处理器打造的新系统,在国际TOP500组织第47期榜单上保持第一,TOP500声明中这样写道。

韩银和还总结了太湖之光的3个亮点:(1)总性能93P,比天河-2又快了3倍,比第3名美国橡树岭实验室的机器快了5倍,是第一台性能接近100P的机器;(2)采用了全国产众核处理器;(3)能效比达到6GFlops/W, 和Green500第一的日本机器能效比也就差不到10%,但太湖之光比日本机器规模大多了,这么大个头能效比控制的这么好,需要有独到的技术。

大突破

神威太湖之光由国家并行计算机工程技术中心研发,在无锡国家超算中心安装完成,2015年12月21日完成整机系统性能测试,目前由清华大学负责运营。

神威太湖之光运算峰值为 125.4 Pflop/s,持续性能 93 Pflop/s,比天河 2 号快了将近 3 倍,比排名第 3 的美国橡树岭实验室的机器快了 5 倍,也是国际第一台性能接近 100P 的机器。

美国Titan、天河二号、太湖之光参数对比

(美国Titan、天河二号、太湖之光参数对比)

神威太湖之光每瓦特浮点运算次数达到了 6 亿次(世界排名第 2 到第 6 的超级计算机,这个数值都在 2 亿次左右),也即能耗比达到 6 Gflops/W,与 Green500 第一的日本机器相差不到10%,但太湖之光规模明显更大,因此实现的技术独到。目前,世界排名前 10 的其他超级计算机能耗比都在 2 Gflops/W 左右。

国家超级计算无锡中心主任杨广文教授在接受采访时表示,神威太湖之光一分钟的计算能力相当于全球72亿人同时用计算器不间断计算32年。

杨广文说:“从低功耗、高集成度的处理器设计,到高速高密度的工程实现技术;从世界领先的高效水冷技术,到软硬件协同、智能化的功耗控制方法,‘神威太湖之光’实现了层次化、全方位的绿色节能,功耗比达到每瓦特60.51亿次运算。”

加速人工智能

航空航天、石油勘探、车船设计、军事应用、新药研发、生物信息、气候模拟……超级计算广泛应用在从实体经济到战略领域的诸多方面。因此,超级计算不仅仅是学术研究,也涉及国家政治问题。

HPC 是世界各国竞相角逐的科技制高点。

神威太湖之光采用中国自主设计和研发的芯片,在超算领域树立了新的标杆,在美国 X86 之外建立了新的生态,可以说中国有了自己的产业链,未来还可能向其他国家输出。

不仅如此,HPC 也是人工智能技术尤其是机器学习发展的关键之一,众所周知,训练神经网络除了数据,还需要巨大的计算能力。

神威太湖之光在 HPC 领域的成功,定能极大推动我国智能产业发展。

接下来,中国制造的神威太湖之光,将为全球提供超级计算服务。

话外

值得一提的是,国际超算行业已经陷入多年沉寂,本次TOP10除了神威太湖之光一举夺魁之外,其他九台都和以前一模一样。

榜单

(榜单)

本次TOP500排行榜上,中国军团也在历史上首次超过美国,达到了167台,占整体的1/3,比美国多出两台,同时遥遥领先其他各国:第三的日本才29台。

中国这167台超算的总性能则达到了211.07PFlops,占比达37.2%,美国则只有30.6%,可见中国超算的效率也是一流的。

 

更多恩智浦(NXP)及科技资讯请关注:
NXP中文官方:https://www.nxp.com/zh-Hans/
NXP中文技术论坛:https://www.nxpic.org/
NXP新浪微博:https://weibo.com/nxpsemiconductors

 

继续阅读
【终于解密的飞思卡尔参考设计】6:三相电表

简介•符合中国国家电网标准。 •性能卓越,在所有温度条件下,有功和无功功率均可实现0.5%的精度。 •用于计量应用的低成本飞思卡尔ARM Cortex™ M0+ SoC KM14。 •ESD性能高达+/- 12KV。 •高度精确的RTC时钟,5ppm分辨率。

【终于解密的飞思卡尔参考设计】5:电梯呼梯盒

电梯呼梯盒参考设计采用Kinetis ARM Cortex M0+内核MCU KE06Z64VLD4开发。KE06是Kinetis E系列32位微控制器单元(MCU),采用5V供电,具有较强的EMC和ESD性能,支持高达48MHz的时钟,集成CAN总线。此参考设计帮助客户降低开发成本和缩短开发时间。

【终于解密的飞思卡尔参考设计】2:智能插座

随着物联网在全球各地消费的不断增长,飞思卡尔推出了基于Kinetis MKM14Z64 MCU的智能插插座参考设计,基于低功耗、高性能的32位ARM®Cortex™-M0+内核MCU。

【终于解密的飞思卡尔参考设计】1:无线鼠标

BT无线鼠标解决方案基于Kinetis L16 MCU和9轴传感器,包括加速度传感器、陀螺仪和电子罗盘。它可以通过蓝牙连接与智能主机通信,或通过38K红外波形发送键码。它还采用内置DAC和ADC实现音频输入和输出。此鼠标与Bluetooth HFP配置文件一起运行,还可作为蓝牙耳机,轻松实现语音输入。