6月23日在德国汉堡发布的第67期全球超级计算机500强榜单显示,首次入榜的中国超级计算机“灵晟”位列榜首。这是自2017年“神威·太湖之光”以后,时隔九年我国超算再次排名全球第一。“灵晟”何以领先其他E级超算?这些年,面对管制与封锁,中国超算又在怎样突围突破?从“跟跑”到“领跑”,如何算得快还要用得好?
“灵晟”为何选择了纯CPU架构的技术路线?
“灵晟”超算系统总设计师、国家超算深圳中心主任 卢宇彤:这条技术路线,是项目初期我们经过广泛调研、深入研判,准确把握国际超算技术以及应用需求的发展趋势后确定的方案。当前国内外多数超算采用CPU+GPU异构路线,而“灵晟”选用纯CPU架构,其实是把GPU矩阵加速单元引入到CPU的内部,相当于CPU自带了加速能力;同时配备了自研的高带宽内存、片上通信优化、软硬件协同的设计技术,构建了既能支持超算,也能支持智算的一种融合高性能计算平台,让我们的系统更加高效,更加好用。
近年来,外部技术的环境变化进一步强化了我们自主创新的决心,但选择纯CPU架构的根本原因,还是这条路线更加符合多领域应用的长期需求,而且我们的技术积累也能够支撑这样的技术路线。现在的结果可以看到,这种差异化的、在线加速的全CPU架构,确实可以超越现有的系统,实现超算领域性能和能效的突破。我们也是在引领下一代算力技术发展的新方向。
中国超算系统的这次第一跟过去比有什么不同?
卢宇彤:超算技术具有很强的时代特征,就是时效性。每一代国产超算系统在特定的阶段都有自己的创新任务和具体的技术贡献,我国曾经拿过第一的系统从“天河二号”到“神威·太湖之光”,再到今天的“灵晟”,都对应着中国超算不同发展阶段的关键技术突破。
随着系统规模越来越大,技术难度也就越来越高。“灵晟”和前几代国产超算系统相比,计算能力实现了数量级的提升,技术路线也有所不同,因为我们现在面向的是一种超算与智算深度融合的新阶段,对技术的要求就会更高、更全面。“灵晟”在追求超高算力的同时,还要支撑科学计算、工程仿真、人工智能大模型,还有一些复杂的数据处理等,多种类型的应用任务都能够高效运行。因此,“灵晟”的意义不再是单纯的算力规模提升,而是在于软硬件架构的源头创新,它同时也促进了我国产业链整体能力的全面发展。
“灵晟”有哪些特点和亮点?
卢宇彤:“灵晟”是一种新的超算结构,支持超算和智算的融合,它不只是把原来的问题算得更快,更重要的是通过数智模拟和人工智能相结合,让以前算不了、算不动的问题实现根本性突破,变成可模拟、可优化的。我们依托数智模拟方法,结合AI来支持复杂装备设计、航空航天、生命健康、药物筛选、蛋白质结构分析等生物系统的模拟。在人工智能领域也能更好地支持大模型,尤其是物理世界大模型的训练,支持科学智能和行业智能的应用。
在高性能计算机领域
我国走到哪一步了?
中国科学院院士 钱德沛:我们的超算经历了跟踪、追赶,从并跑到交替领先的过程。我们最大的底气是有四支从事超算研发的团队,“曙光”“天河”“神威”“灵晟”。
中国的超算从来都是在外部封锁的条件下发展起来的,不可能谁的技术都拿来用。我们一定要依靠自己的力量发展。这个发展过程是一步一步的,首先“天河一号”突破了全部国产的互联,随后的“神威·蓝光”和“神威·太湖之光”突破了国产处理器,今天的“灵晟”不仅突破了处理器,还突破了高带宽的内存。我们在技术上已经有了足够的积累,同时在软件上也形成了系统的软件栈、算法以及工具。这些都是在我们这四支团队,以及全国的相关科学院努力下所取得的。
时隔9年重回世界第一当中发生了什么?
钱德沛:这9年是世界大变局下的缩影。2017年11月,“神威·太湖之光”名列世界第一,2018年我们没有新的系统出现,2019年我们有了能位居世界第一的新系统,但是由于种种原因2019年开始不再参加世界TOP500的排行榜。从2019年到今天,这中间实际上我们既面临着外部的压力,也面临着一些社会舆论的不理解,比如说人家一封锁我们的超算就造不出来了。但事实不是这样的,尽管没有参加排行,但是我们的系统依然是世界数一数二的系统。今天重回世界榜首,是公开向全世界宣告,我们中国的超算又回来了。这个过程中,我想每一个中国的超算人、每一个科技工作人员都体会到这中间的艰辛和不易。
编辑:余凤
责任编辑:陈翠
编审:张宏彦

0