随着超级计算2021在本周开始,所有的目光都集中在高性能计算(HPC)上,以及我们在世界上最快的计算机上看到的令人难以置信的进步。(好吧,并不是所有人都在关注,有些人仍然在关注Tik Tok……嗯,你知道的)。
高性能计算领域的格局正在迅速变化,超级计算机在解决世界上最关键的问题方面发挥着更大的作用。随着对气候变化和全球大流行等危机的直接影响,以及人工智能等具有挑战性的新工作负载的兴起,超级计算正在展开翅膀,并对地球上每个人的日常生活产生切实的影响。
用彼得·帕克的话来说,处理这个重大的责任需要巨大的力量。而且,这意味着强大的计算能力以及大量的电能。自从处理器的Dennard Scaling消亡以来,我们提高计算性能的能力主要来自并行性——在每个包、机架和房间中堆放更多的处理器。而且,由于并行度的规模或多或少是无限的,在现实世界中,我们在计算性能上所能达到的限制因素是能量。
展望未来,能源效率可能是高性能计算最关键的考虑因素。
我们的老伙计冯·诺依曼处理器承担着当今世界上绝大多数计算机的负载。但是,尽管冯·诺伊曼拥有所有伟大的特质,他在能源效率方面并不特别擅长。使问题更加复杂的是,如今创建的大量数据在需要消费、存储和处理这些数据的应用程序的内存大小和带宽方面造成了严重问题。而且,所有这些记忆活动都转化为更多的能量消耗。
几十年来,fpga具有加速广泛应用的潜力,其能源效率大大高于传统处理器。但是,利用FPGA的并行处理能力需要大量的工程投资,并且需要FPGA设计方面的罕见人才。而且,为了在高性能计算系统中部署FPGA,在硬件和软件领域都需要FPGA设计技能。
几年前,Xilinx宣布他们将“数据中心优先”,以追求fpga和可编程逻辑技术的新兴市场。这意味着他们需要克服硬件和软件障碍,才能将他们的芯片应用到能够发挥作用的系统中。而且,他们在FPGA业务上的主要竞争对手英特尔(以前是Altera)在数据中心市场上处于不利地位。这意味着Xilinx正在逆流而上,试图让他们的芯片进入数据中心和超级计算机。
Xilinx战略的两个关键要素是他们的Alveo预先设计的加速卡,以及他们的Vitis统一软件平台,解决了硬件和软件部署的挑战。Alveo迫使Xilinx从他们通常的舒适区-销售组件-销售系统/解决方案。而且,Vitis将它们从它们的历史用户——精通rtl的数字设计师——带到了更广泛的软件开发人员受众。这两件事都要求公司重新思考经营方式。
现在,在数据中心领域投入了大约三年的时间后,Xilinx宣布推出了一款功能更强大的新Alveo卡——U55C,以及基于标准的api驱动的集群解决方案,允许它们大规模部署——在一个系统中可以部署超过1000个fpga。该卡为单槽全高半长(FHHL),最大功率150W。它将每个FPGA的超高带宽HBM2数量增加了一倍,达到16GB(与之前的双插槽Alveo U280相比)。它提供了卓越的计算密度。HBM2在许多内存带宽有限的高性能计算应用中起着关键作用。U55C还在更小的外形尺寸中增加了计算密度,具有更高的电源效率。Xilinx表示,U55C“专为高密度流数据、高IO数学运算以及需要向外扩展的大型计算问题而设计,比如大数据分析和人工智能应用。”
Xilinx设计的Alveo可以与现有的数据中心基础设施和网络协同工作,为他们提供了跨越英特尔护城河进入强化良好的数据中心和高性能计算市场所需的工具。新的基于RoCE v2的集群解决方案使客户能够在现有基础设施之上构建基于FPGA的大型HPC集群,而无需雇佣FPGA专家团队。api驱动的集群解决方案利用了RoCE v2标准和数据中心桥接以及200 Gbps带宽。这使得肺泡网络在性能和延迟方面与InfiniBand网络竞争,而不需要厂商锁定。
当然,一旦您的高级硬件进入系统,您仍然需要对其进行编程。
这就是Vitis统一软件平台的用武之地。HPC开发人员可以使用普通的高级语言和AI框架进行开发。通过在数百个Alveo卡上共享工作负载和内存来扩展数据管道,而不依赖于他们使用的服务器平台和网络。
在过去几年中,Xilinx凭借Vitis开发平台取得了长足的进步,使得无需FPGA或硬件专业知识的软件开发人员和数据科学家更容易使用FPGA加速计算。Vitis比Intel的oneAPI框架更专注,但有一个共同的目标,那就是简化在复杂的异构计算硬件上部署应用程序的任务。
Vitis支持主要的AI框架,如Pytorch和Tensorflow,以及C、c++和Python等高级编程语言。它抽象了通常的FPGA挑战,如RTL设计、合成、布局和廷闭。Xilinx还提供了一个不断增长的预优化IP库,使开发人员能够在现有数据中心部署许多典型的HPC应用程序。
Alveo U55C卡目前可从Xilinx和经销商处购买。该公司还通过基于公共云的FPGA-as-a-Service提供商提供评估,以及选择托管数据中心进行私人预览。集群现在可以进行私人预览,预计在明年第二季度全面可用。
显然,Alveo战略在AMD即将收购Xilinx的交易中发挥了很好的作用,并将成为AMD继续与英特尔争夺数据中心和高性能计算这块沃土的关键武器。这将是一个有趣的观察。