EEJournal

专题文章
现在就订阅

为什么Xilinx说其新的7nm Versal“ACAP”不是FPGA?

Xilinx揭开更多面纱,揭示更多细节,但并非全部。

在10月1日于加州圣何塞举行的Xilinx开发者论坛(XDF)上,Xilinx已经缓慢地展示了其新的ACAP(自适应计算加速平台)架构好几个月了,该公司还发布了更多的产品,包括新的“Versal”系列和六个新的多成员7nm ACAP器件系列(又名系列)。(赛灵思表示,“Versal”是“versatile”和“universal”两个词的缩写。)赛灵思总裁兼首席执行官Victor Peng在XDF的主题演讲中介绍了Versal产品线,他宣称:“赛灵思不是一家FPGA公司;Xilinx是一家平台公司,”他强调Xilinx专注于“整个应用程序加速”。事实上,这就是赛灵思的新口号。

图1:赛灵思总裁兼首席执行官Victor Peng在上周的XDF上宣布了7nm的Versal ACAP。(图片来源:Steve Leibson)

关于Versal ACAP不是FPGA, Peng有一个有效的观点。我们都知道微控制器不是存储器,也不是闪存EPROM,即使微控制器的片上存储器占用了芯片的大部分芯片面积。同样,Xilinx坚持认为ACAP不是FPGA,尽管所有Xilinx ACAP都包含该公司标志性的FPGA阵列结构(现在在ACAP框图中更名为“可适应引擎”)。

“这就是我们的DNA,”彭说,他指的是fpga。

除了FPGA结构,Versal器件还包含许多其他重要的系统元素,包括:

    • 标量引擎:Arm Cortex-72和Cortex R5处理器。在早期的Xilinx Zynq设备中,这些标量引擎以前被称为PS (Processing System),这个术语也出现在一些Versal ACAP文档中。
    • 智能引擎:AI引擎(大量用于AI处理和DSP的数百个专用、网络化、软件可编程、VLIW、SIMD处理器)和DSP引擎(以前称为DSP片),现在通过增强的浮点扩展进行增强。用“引擎”来描述DSP片有点延伸了我书中“引擎”的定义。
    • 许多用于各种标准接口和内存协议的加固协议块,包括以太网,PCIe, CCIX(芯片到芯片的连贯串行协议)和SDRAM控制器
    • 从32 Gbps到112G PAM4的高速SerDes端口,可编程I/O。
    • 大量的片上内存分布在整个设备上,作为标量和AI引擎的本地RAM,再加上FPGA结构中的LUT RAM、Block RAM和UltraRAM。
    • 一个无处不在的NoC(片上网络)将所有的引擎与许多许多片上存储器通过高速、多车道、时分多路复用、片上、基于分组的网络连接起来。
    • 一个软件控制的平台管理控制器(PMC),用于监督整个设备的引导、配置、动态重新配置、加密、身份验证、电源管理和系统监控。据报道,与上一代Xilinx设备相比,PMC的动态设备重新配置速度提高了8倍。(注意:你在下面的方框图中找不到PMC。它是一个完整的软件可编程处理器,隐藏在位于左下角的PCIe/CCIX块中。像Xilinx Versal acap这样的复杂设备通常有许多这样的隐藏处理器。)

以下是Xilinx对Versal ACAP的概念框图:

图2:Versal ACAP概念组合框图(图片来源:Xilinx)

图2显示了Versal体系结构中所有可用块的组合块图。但是,每个ACAP设备只包括上图中出现的组件的一个子集。例如,只有一些尚未公布的Versal设备将包含3D HBM(高带宽内存)DRAM堆栈或112Gbps PAM4 SerDes端口。令人惊讶的是,许多Versal设备根本没有AI引擎。

为了为所有这些可编程的优点奠定基础,让我们从已经公布的六个Versal系列开始。有三个多成员的Versal AI系列,其中包含AI引擎:

      • Versal AI Edge
      • Versal AI Core
      • Versal AI RF

以及三个非AI,多成员系列的Versal设备,其中不包括AI引擎:

        • 整个的'
        • 整个的溢价
        • 整个的HBM

Xilinx在报告中提供了五种设备的详细信息Versal AI Core系列和九种器件中整个的'XDF的级数。在计划推出的六款Versal设备系列中,仅前两款就有14款不同的设备。其他四个Versal ACAP设备系列中的设备是未来的部件,将在后面详细介绍。

六种Versal设备系列旨在涵盖Xilinx所称的中高端应用。可以理解的是,没有计划推出低端7nm器件。这是因为所有7nm器件的制造成本都很高,因为它们基于finfet,很快就会采用EUV模式(如果你住在台湾,就会在你附近的晶圆厂生产)。用Xilinx硬件和系统产品开发执行副总裁Liam Madden的话来说,这些7nm器件“非常昂贵”。

基于三个非AI系列的存在,很明显Xilinx并没有将Versal acap专门用于AI加速,因为正如该公司在XDF上强调的那样,像推理这样的AI任务只是整个最终产品难题的一部分。人工智能是一种新的、值得热议的、不那么秘密的成分,它被热粘在一大堆嵌入式应用程序上,以使它们在某种程度上“更好”(并从风险资本家那里获得更多资金)。

然而,从Xilinx的角度来看,仅仅加速AI部分的工作是不够的。真正的性能提升来自于加速完成尽可能多的任务。XDF演示中提到的AI引擎、DSP引擎或自适应引擎(或三者的组合)加速的示例目标任务包括雷达5G无线通信的波束形成、网络分组通信和数据中心大型固态存储系统的智能控制器。

塞满O '引擎

这就是为什么Xilinx在Versal设备中塞满了引擎。无论你需要的是原始性能、动力效率,还是两者兼而有之,这些引擎中有一种可能最适合任何给定的任务。

Versal的一些引擎几乎不需要解释,因为它们是对早期Xilinx设备上现有处理资源的进化扩展。例如,Versal ACAP的标量引擎包括64位Arm Cortex-A72应用处理器和32位Arm Cortex-R5实时处理器,这是Xilinx 16nm Zynq UltraScale+ mpsoc中两个64位Arm Cortex-A53应用处理器和两个32位Arm Cortex-R处理器的自然发展。与Xilinx Zynq UltraScale+ mpsoc一样,通达的两个Arm Cortex-R5处理器可以同步运行,用于安全关键应用。

赛灵思没有公开披露在Versal acap中Arm处理器的时钟速率,但初步的在线数据表确实给出了每个Arm处理器的DMIPS评级:Arm Cortex-A72处理器为15,980 DMIPS, Arm Cortex-R5处理器为2505 DMIPS。现在,VAX DMIPS/MHz评级作为工作负载数字不再特别有用,但我们可以使用它们来反向计算处理器的时钟速率。Arm Cortex-A72处理器的DMIPS/MHz评级为4.7,Arm Cortex-R5处理器的DMIPS/MHz评级为1.67Arm微架构维基百科页面Xilinx公布的DMIPS/MHz数字表明,该公司预计Versal ACAP的Arm Cortex-A72处理器将运行在3.4GHz, Arm Cortex-R5处理器将运行在1.5GHz。当赛灵思公司拿到维赛尔芯片时,我们可能会知道更多。

目前公布的所有Versal acap都有两个Arm应用和实时处理器,但XDF大会上Xilinx的发言人明确表示,该公司并不局限于使用这些特定的Arm处理器。此外,Xilinx并不一定会限制未来的Versal ACAP设计为两个应用程序处理器和两个实时处理器。

Versal ACAP的可适应引擎部分由熟悉的Xilinx FPGA结构组成,由传统的可编程逻辑FPGA线程、几种形式的嵌入式SRAM、可编程互连和DSP片编织而成。DSP切片,现在被称为DSP58切片,而不是DSP48切片(“它们比DSP48好10个,”Madden在主题演讲后的新闻发布会上调侃道),已经“显著升级”。在这种情况下,对“significant”最充分的解释似乎是DSP58片现在加强了对浮点操作的支持。

虽然它们物理上位于xilinx红色FPGA结构中,但DSP58切片也构成了上面框图中所示的绿色DSP引擎块的基础。根据所选的Versal设备,您可以使用DSP58片和紧邻的FPGA结构构建数千个这样的DSP引擎。

深入研究AI引擎

AI引擎和NoC是Versal架构中最新颖的部分。虽然Xilinx在今年早些时候的Hot Chips 30大会上发表的一篇论文中详细讨论了AI引擎(参见“赛灵思(Xilinx)在ACAP上放了一根羽毛), Xilinx在XDF上提供了更多的架构信息。Versal AI Engine是一个硬化SIMD处理器的平铺阵列,它将内置在128位指令字中的6路指令并行性与512位、定点和浮点向量执行单元以及32位标量处理器结合在一起,如图3所示。

图3:Versal AI Engine阵列中的每个瓦都是一个经过加固的VLIW SIMD处理器。(图片来源:Xilinx)

每个AI引擎瓦都有一个32Kbyte的本地数据SRAM,它也直接连接到四个AI引擎瓦(北、南、东、西)周围的SRAM。AI引擎瓦可以从这四个相邻瓦中“借用”内存,从而简化非对称任务引擎的开发。

此外,每个AI引擎瓦通过一个专用的流线型NoC连接到数组中的所有其他AI引擎瓦。Xilinx针对AI引擎的特定要求自主开发了这款轻量级NoC。它基于Arm的AXI流协议。每个tile中的三个DMA引擎可以将数据传递给AI Engine数组中的其他tile,如图4所示,图4摘自Xilinx在今年的Hot Chips 30会议上的演示。

图4:Versal ACAP AI引擎中的每个瓦通过一个专用的、流线型的NoC连接到所有其他AI引擎瓦。(图片来源:Xilinx)

现在,图4可能导致您严重低估了Versal ACAP AI Engine块的处理能力,因为它只显示了9个AI Engine tile。你可能会认为这是AI引擎中的贴图数量。实际上,AI核心系列中最小的Versal ACAP VC1352集成了128个AI Engine tile,可以执行11到43个峰值TOPS用于INT8和INT16操作,或为FP32操作执行3个TFLOPS。该系列中最大的设备VC1902具有400个AI Engine tiles,可以执行33至133个峰值TOPS(用于INT8和INT16操作),或用于FP32操作的8个TFLOPS。因此,AI引擎的处理能力比图4所示的要强大得多。

(请注意,Xilinx在XDF期间没有公开披露AI引擎瓦处理器的时钟速率,并且没有办法像我为Arm处理器所做的那样,从TOPS和TFLOPS性能评级中回调时钟速率,因为AI引擎瓦是全新的Xilinx专有的VLIW处理器架构。)

与其使用全新的AI引擎,为什么不直接在可编程逻辑中为cnn等AI功能构建执行硬件呢?当然,你可以。你已经可以用现有的Xilinx设备做到这一点,这样的实现可以和gpu一样快,或者可能比gpu快一点,并且在像GoogLeNet这样的AI推理任务中比cpu快一个数量级(或更多)。

但基于XDF期间Xilinx提供的信息,大规模并行的Versal AI引擎仍然更快——可能比GPU快2.5倍,比cpu快72倍。这是批处理数据的吞吐量等级。考虑到自动驾驶等实时应用的低延迟要求(比如2毫秒),AI引擎的优势将增加到GPU的8倍,而CPU则因为无法满足这一要求而完全退出竞争。(同样,这些是Xilinx的数据。)

所有这些处理速度都需要在片上引擎和内存之间进行高通量、无阻塞的数据移动。这就是为什么Xilinx在整个Versal ACAP架构中构建了一个额外的NoC。Xilinx Versal白皮书中出现了显示NoC如何将Versal ACAP架构的各个元素连接在一起的芯片布局图(与图1中的概念框图相反)(WP506),并在下图5中再现。

图5:NoC将所有的Versal引擎连接在一起,并将它们连接到许多分布式片上存储器、SDRAM控制器和I/O端口。(图片来源:Xilinx)

如图5所示,芯片级的NoC将所有片上的Versal引擎连接在一起,并连接到分布在设备上的许多内存。芯片范围的NoC提供了一种快速、确定的方式,可以跨芯片将数据从引擎移动到内存,再移动到引擎。此外,这个更大的NoC将所有这些引擎连接到芯片的SDRAM控制器,用于芯片外存储,并且在未来Versal HBM系列设备上市时,还将把引擎连接到HBM DRAM。(参见下面的路线图。)

软件是驾驭通用引擎的关键

Xilinx软件和IP产品执行副总裁Salil Raje在Versal发布会上表示,他的软件开发团队的目标是为所有抽象级别的开发人员提供Xilinx设备的“自然入口”。他接着强调,Versal可编程引擎集合中固有的实用功能只能通过巨大的软件投资才能解锁,如图6中列出的工具的广度所示。

图6:在所有抽象级别上为程序员提供熟悉的开发工具所需的软件数量是巨大的。(图片来源:Xilinx)

数据科学家习惯于使用Caffe和TensorFlow等框架。应用程序开发人员使用hll(如c++)或其他专用框架(如OpenCL)。嵌入式开发人员习惯于用C或c++编写微处理器代码,他们希望在标准操作系统(如Linux)上运行这些代码。精简的FPGA硬件开发人员知道如何通过使用Verilog和VHDL编写RTL代码来获得Xilinx设备的最大性能,他们将希望在Versal设备上继续这样做。

根据图6,Raje团队正在处理的开发工具的跨度是巨大的。但是,如果Xilinx希望欢迎所有人加入到Versal阵营中来,那么对所有这些工具的大力支持是基本要求。Xilinx多年来一直在编写和获取这些工具。随着Xilinx 28nm fpga的问世,其中一些开发工具已经到位。其他设备则用于支持该公司的Zynq、UltraScale和UltraScale+设备。

当被问及他的团队专门为Versal一代做了什么时,Raje说,所有现有的Xilinx开发工具都已经为Versal AI引擎“升级”,SDSoC和SDAccel,为嵌入式和网络世界量身定制的Xilinx开发环境已经混合在一起,以跨越更广泛的应用程序。此外,Xilinx的软件开发团队一直忙于为更多应用程序添加库。拉杰补充说,该公司现在也非常专注于开放软件。

Xilinx的Versal路线图延伸至2021年

在该公司的一个不同寻常的举动中,Xilinx为Versal系列制定了一个多年的路线图。前两个系列的设备,Versal AI Core和Versal Prime,将于2019年下半年开始发货——可能从现在开始一年或更长时间。另外两款AI成员,具有集成射频adc和dac的Versal AI Edge和Versal AI RF,以及具有真正高速以太网IP和112G PAM4 SerDes端口的高端AI Premium系列成员将于2020年发货。最后,集成HBM DRAM的Versal设备将于2021年上市。

图7:Versal路线图显示,前两个设备系列将在2019年下半年上市,其他四个系列将在2020年和2021年上市。(图片来源:Xilinx)

因此,最后,Victor Peng希望您知道Xilinx不再“仅仅”是一家FPGA公司。它是一家平台公司,它计划以平台公司应有的方式为开发人员提供支持,提供一个大型、全面的软件工具箱,为所有抽象级别的开发人员提供服务。在上周的XDF会议上,看看Versal ACAP架构和公司的开发工具愿望,很明显彭的目标是FPGA平面之上的许多英里。

你觉得范尔ACAP会让赛灵思达到新的高度吗?请在下方评论留下你的想法。

3个关于“为什么Xilinx说其新的7nm Versal“ACAP”不是FPGA?”

留下回复

有特色的博客
2023年3月13日
多样性、公平和包容(DEI)不仅仅是语言,而是通过我们的Cadence文化体现出来的价值观。在DEI@Cadence系列博客中,您会发现一个社区,员工可以在这里分享他们的观点和经验。通过提供他们的个人…
2023年3月10日
一个经过验证的指南,使项目经理成功地接管正在进行的项目,并完成工作!
2023年3月9日
通过物理感知RTL分析和自动调试工具,了解如何通过实时PPA分析和芯片设计见解优化RTL设计流程。你的新“超能力”:看穿“交接墙”实现早期RTL的PPA见解出现了……

有特色的视频

第一个CXL 2.0 IP互操作性演示与遵从性测试

Synopsys对此

在本视频中,高级研发工程师Rehan Iqbal将指导您通过Synopsys CXL IP通过合规测试,并演示我们与Teladyne LeCroy Z516锻炼器的无缝互操作性。这个首创的互操作性演示证明了Synopsys致力于提供可靠的IP解决方案。

点击这里了解更多关于Synopsys CXL的信息

特色粉笔谈话亚博里的电子竞技

MOTIX™电机控制解决方案
当今复杂的汽车设计需要广泛的电机控制和系统集成电路来满足客户的需求。在本期Chalk Talk节目中,英飞亚博里的电子竞技凌的Michael Williams和我一起探讨英飞凌的MOTIX™电机控制解决方案如何帮助简化您的下一个汽车设计。我们将仔细研究MOTIX™嵌入式电机控制芯片电源系统,MOTIX™嵌入式电源IC可以为您的下一个设计带来的好处,以及如何开始使用英飞凌的MOTIX™电机控制解决方案进行下一个电机控制设计。
2022年5月26日
35671的浏览量
Baidu