从硅到软件

关于高性能计算中的可靠性、可用性和可服务性,你需要知道什么

高性能计算集群

作者:Synopsys Solutions Group工程高级副总裁Charlie Matar和产品营销总监Rita Horner;以及Synopsys EDA Group产品营销经理Pawini Mahajan

虽然曾经是大型数据中心和超级计算机的领域,但高性能计算(HPC)已经变得相当普遍,在某些情况下,在我们的日常生活中是必不可少的。正因为如此,可靠性、可用性和可服务性(RAS)是更多HPC SoC设计人员应该熟悉的概念。

RAS可能听起来像是一个不言自明的术语,但当涉及到HPC soc时,它真正涉及到什么?数据中心运营商长期与客户保持服务水平协议,以保证系统正常运行时间。RAS补充了这些协议,现在可以得到新技术的支持,最终产生可操作的见解。请继续阅读,了解更多关于为什么硅生命周期管理(SLM)、嵌入式监控IP以及正确的设计和验证工具可以成为您的盟友,为您的HPC设计实现高水平的RAS。

3高性能计算关键部件

由家庭安全门铃或建筑物的监控系统捕捉到的视频片段。财务和业务操作建模。科学和医学研究。增强现实和虚拟现实。当谈到依赖于HPC的应用程序领域时,这样的例子不胜枚举。我们的设备和系统收集的数据激增,人工智能驱动的分析,大量计算资源的可用性,以及云正在融合,使快速获得有用的、可操作的见解成为可能,使高性能计算成为更广泛应用程序的一个组成部分第一台超级计算机出现于20世纪40年代

如今,典型的HPC基础设施由三个关键元素组成:计算、网络和存储。每种方法都需要一定程度的性能、延迟、电源效率、可伸缩性、生产力和安全性。让我们仔细看看每个元素:

  • 计算由cpu和gpu、加速器、片上网络(NoC)和计算服务器组成。这是高性能数据处理发生的地方。复杂多核甚至多模系统架构大容量内存,快速访问,高带宽I/O接口,电源/冷却管理和安全性是关键特征。芯片内监控和分析可以支持RAS目标。
  • 网络由交换机、路由器、适配器、网桥、中继器、网络接口卡(如aSmartNIC),以及光电互连。该元素提供高性能连接,理想情况下具有高吞吐量、低延迟、能源效率、可配置性和可伸缩性、实时监控和报告以及安全性。调试功能、前向纠错(FEC)和IP可以支持RAS需求。
  • 存储包括SSD (solid-state drive) / HDD (hard disk drive)、SAN (Storage area network)和NAS (network attached Storage)。理想情况下,存储元素应该提供高带宽存储、减少数据传输能量和延迟、灵活性、可伸缩性、可靠性和安全性。内置自检(BIST)、纠错码(ECC)和冗余等功能可以促进高级别的RAS。

HPC系统有两种主要类型:同构机器和混合机器。同构机器只有cpu。相比之下,混合处理器同时拥有gpu和cpu, gpu运行任务,cpu监督计算。

HPC集群可以由大量服务器组成,计算集群的总物理大小、能源使用或热输出可能成为一个严重的问题。此外,对于集群特有的服务器之间的专用通信也有需求。

因为当集群中的服务器数量乘以小的设计差异时,就会产生大的好处,所以我们看到了针对HPC优化的服务器设计的出现。有时这些设计是针对大型公共Web运营商的,比如搜索引擎公司,它们在HPC集群中提供了类似的好处。但是,它们也可以提供只适合HPC用户的特性。例如,如果系统被设计成以不同的方式提供集群互连,则可能有显著减少布线的潜力。

通过芯片内监测和分析提供可操作的见解

高性能计算的实用之处在于它能够处理大量的数据(pb甚至zb),并且能够实时(或接近实时)运行复杂的模型。不用说,任何时候HPC系统出现故障,都会导致资金损失和业务中断。关键任务应用程序的影响变得更加严重。在具有大型单片模具或复杂架构(如多模具)的高级节点上,满足RAS需求变得更具挑战性。

根据当前应用程序的关键程度,可以使用备份构建系统,在发生故障时提供冗余。除了冗余之外,您还可以在系统和芯片级别上做更多工作来满足RAS目标。这就是SLM发挥重要作用的地方,它提供智能、自动化的芯片内监控IP和方法,通过系统生命周期的每个阶段生成可操作的见解。

几十年来,设计师们一直在芯片中嵌入监视器和传感器;然而,该技术已经发展到现在可以提供具有更高粒度级别的更准确的数据。这样可以更好地了解设备的实时环境、结构和功能状况。例如,热热点、过程变化和电压供应的监测,以及定时裕度的精确测量。

得益于嵌入式和基于云的分析,以及统一的SLM解决方案的可用性,设计团队将能够建立一个连续的、实时的设备硅健康状况图,不仅在设计、生产和生产阶段,而且在现场操作期间。他们可以更好地了解根本原因,并立即调试和修复,降低成本和潜在危害。SLM可以解决的问题包括晶体管老化和延迟故障。为了了解这带来的好处,考虑一颗有bug的卫星。通常情况下,从实验室取回一块修理好的板并将其安装到卫星上可能需要数周的时间,为了排除故障和维修,它需要长时间停机。通过SLM技术在现场进行故障检测和故障修复,团队可以在更少、更短的中断时间内保持系统正常运行。

看一下数据中心,我们可以看到另一个突出显示SLM如何促进满足RAS需求的示例。

  • 在硅级,在现场远程调试的能力对于努力成功超大规模数据中心的团队至关重要。SLM提供了远程遥测和监控,使这成为可能。
  • 在系统级别,精确的时钟调节(另一个SLM功能)对于最大化数据吞吐量和CPU、GPU和AI引擎利用率至关重要。
  • 在数据中心级别,使用SLM工具监视服务器性能、网络拥塞和磁盘利用率是检测和预测数据中断的关键,这会增加正常运行时间。
  • 在超大规模级别,团队可以利用SLM来最小化芯片上的热压力和供应压力,以提高可靠性。
  • 对于模对模高速接口,SLM提供了信号完整性监控,这与接口完整性的冗余一起,有助于确保芯片设计的鲁棒性。

总结

一个端到端的解决方案,从设计校准分析到芯片内监控和系统性能优化,而不是一组断开的点工具,可以使寻址RAS目标的过程更加无缝。Synopsys在提供这种端到端流程方面是独一无二的硅生命周期管理家族,并辅以广泛的低延迟、硅验证IP以及用于高性能计算应用的设计和验证技术组合。这组解决方案包括物理感知硅监控器、云分析以及嵌入式分析和优化技术等功能。SoC传感器IP和过程监视器也是家族的一部分,用于设计中、生产中和现场优化。在制造阶段和现场可靠的硅,监控器可以收集关于硅的实时数据,加上全面的测试和调试解决方案,确保高RAS。

考虑到现在越来越多的应用程序依赖于高性能计算,保持这些系统的高可靠性、可用性和可服务性是一个全面的关键考虑因素。实现最佳水平的RAS以支持从流媒体视频到气候变化建模的一切,是保持我们的数字化、智能世界以最高速度运行的另一个重要因素。

了解更多

如果你错过了它们,请赶上其他相关博客文章,以获得更多见解:

Baidu