韩国资助首个为AI和高性能计算设计的超级计算CPU

韩国电子与电信研究所(ETRI)的研究人员与Arm公司合作,离设计和部署一种能够处理双精度超算应用和低精度、低功耗AI推理的原生CPU又近了一步。对于一个将所有高性能计算HPC资源都与英特尔处理器绑定的国家来说,如果性能和效率的预测如期实现,那么这对于未来的超级计算大型系统而言可能是一个重大发展。

ETRI的AI处理器研究部Youngsu Kwon表示,设计规范是要创造一个设备,通过软件中熟知的专有功率门控架构,可以比加速器(尤其是超级计算机上越来越常见的GPU)的性能提高2.5倍,功耗降低60%。我们的目标也是创建一个软件堆栈,它可以管理功耗(温度控制、时钟、混合精度等),还可以在内置加速器、双精度计算以及通过OpenMP和OpenCL使用PyTorch和Tensorflow等框架之间实现无缝跳转。获取更多前沿科技信息访问:https://byteclicks.com

设计工作的结果是K-AB21(AB代表 “人工大脑”)。该团队表示,他们已经成功地将每个CPU包装成16 teraflops,这几乎完全是由单元中的密集矩阵核(XPU)实现的。一个机架的性能将达到1600 teraflops,奠定了韩国通往超级计算之路。

“重点应该是低功耗芯片和系统的单芯片性能。从而可以集成更多的芯片,提高性能,降低功耗。同时,将CPU和加速器集成到单芯片中,可以获得更多的带宽,从而消除数据带宽瓶颈。”

下面是架构的详细介绍,重点介绍了处理器模块,有多个HBM2模块用于扩展读写,以及DDR5用于扩展容量。HBM和处理器通过自己的中间件方案集成,由HBM2和DDR组成的分层内存结构。这里有趣的特点是Arm “Zeus “核心,它与ETRI XPU许多线程的、可扩展的AI/HPC核心耦合,这些核心本质上是矩阵数学单元,提供了这16个teraflops。

韩国资助首个为AI和HPC设计的超级计算CPU

在下图中,中心是由Arm提供的骨干网状网络切成薄片。那些Zeus核心在上边和下边。MMU600模块与加速器(XPU)相连。XPU的每个子块在这里被称为XEMC–这些子块有自己的缓存、负载存储、双精度单元和可编程内核,可以同时执行多个线程。

韩国资助首个为AI和HPC设计的超级计算CPU

XEMC和Zeus核心的集成块在这个设计中由四块模块组成,底部两侧是PCIe 5.0接口,可以作为普通的PCI接口进行片间通信。芯片周围还有DDR和HBM控制器。

该小组仍在最后确定芯片的元件,但预计在2021年年底前上市,可能正好可以通过一个新的、原生构建的芯片,让其摆脱英特尔的束缚,开创韩国超算新时代。

韩国目前生产的最大的超级计算机是Nurion机,它是全球第17个最强大的系统。它位于韩国科学技术研究院,采用全美技术,包括英特尔CPU(采用Xeon Phi),由Cray(在被HPE收购之前)集成。有趣的是,Cray在韩国有很强的影响力。他们的三个500强排名的系统都是Cray/Intel CPU专用机,包括用于天气预报的Nuri(排名138)和该国气象局用于天气建模的另一个类似系统Miri。

考虑到气象系统并不经常采用GPU进行工作负载加速,而且人工智能还处于萌芽状态,像K-AB21这样的架构在内部可能并不适合,但作为Nurion机器的替代者,它是可能的,尤其是该系统很可能在K-AB21全面上市和测试的时候就已经到了寿命的终点。

上一篇:

下一篇:


标签