为数据中心设计节能AI加速器和智能优势

威廉·鲁比

2023年7月26日/4分钟阅读

人工智能(AI)加速器部署在克服传统数据中心和边缘冯·诺依曼的瓶颈通过快速处理海量信息。尽管摩尔定律放缓,AI加速器继续有效地使关键的应用程序,很多人越来越依赖,从ChatGPT和高级驾驶员辅助系统(ADAS)智能边缘设备,如摄像头和传感器。

尽管AI加速器通常是100 x 1000 x效率比通用系统,生成最佳的人工智能模型所需的计算资源每3.4个月增加一倍。此外,训练一个深度学习模型如ChatGPT GPT3创造约500吨的有限公司2,相当于超过一百万英里的平均汽油车!有助于减少全球碳排放,美国能源部(DoE)最近建议1000 x改善半导体能源效率。

实现最佳performance-per-watt-whether AI训练数据中心或推理的优势可以理解半导体行业的首要任务。除了减少环境影响,降低能耗降低运营成本,最大化性能在有限的预算,并帮助减轻热的挑战。往下读,学习芯片designers-including边缘人工智能芯片开发人员SiMa.ai——利用端到端功率分析解决方案构建新一代节能型AI加速器。

可持续的ai加速器

优化多亿门设计

一个端到端的方法为人工智能能效加速器必须开始在建筑和micro-architectural水平设计流程的早期阶段,在验收结论。这就是为什么人工智能芯片设计者依靠建筑勘探平台映射和评估能力,性能,和区域(PPA)权衡特定训练或推理应用程序而主动识别向量为下游分析至关重要。

作为人工智能硬件通常由大型数组和成千上万的瓷砖(处理元素),billion-plus-gate设计需要多域硬件和软件能力验证减少能源消耗和泄漏。然而,分析关键权力块和时间窗要求先进的仿真系统运行数以十亿美元计的周期和快速传递多个accurate-iterations。只有完成这一步后才能寄存器传输级(RTL)能力分析和物理实现工具有效地优化动态(门开关)和静态功耗(泄漏)。

始终提供准确的结果,RTL权力分析工具对人工智能芯片设计应包括以下功能:

  • Timing-driven快速合成:内部权力计算错误通常是由于fanout-based快速合成工具,无法正常大小的细胞后时间限制。和下游place-and-route同行一样,快速合成嵌在RTL权力必须定时驱动的分析工具。
  • 身体意识到快速合成:RTL权力分析工具应该“身体意识”和能够获得精确的电容净值通过执行初步的位置细胞的设计,以及全球路由。与fanout-based方法不同,身体意识到电容的评估结果为每个净独特、准确值。
  • Signoff-quality功率计算引擎:传统RTL权力分析工具使用也能进行逻辑推断法快速合成只能启发式和因此inaccurate-methods申请故障功率计算。精确计算故障权力(这可能会占用芯片总功率的40%),降低高度复制的瓷砖,RTL权力分析工具必须有signoff-quality权力分析引擎,一个网表级设计代表,时机和集成引擎。


在完成RTL权力分析和减少,物理实现(合成和地点和路线)工具可以用来进一步优化PPA。确保可靠性、可伸缩性和无缝的用户体验,这些实现工具应该包括一个集成数据模型架构,交叉引擎,一个统一的壳。同样重要的是,实现先进工具应该能够准确建模节点影响和故障能力加快工程变更订单(ECOs)和最终设计关闭。

超过能源效率和性能

Synopsys对此提供了一个全面的端到端电力解决方案可以帮助人工智能芯片设计者以达到或超过雄心勃勃的性能和节能的目标加速投放市场的时间。在一开始使用的设计流程,Synopsys对此平台架构师™为人工智能芯片设计者提供SystemC™事务级建模(TLM)工具和有效的方法快速模型,分析和优化复杂的硅结构。Synopsys对此瘤牛®授权,快速力量分析器,用于人工智能芯片设计过程的下一阶段:分析和调试能源消费为基础的数亿周期上真正的软件工作负载。

领先的半导体公司有显著降低权力与Synopsys对此瘤牛授权,包括SiMa.ai,一个基于硅谷的人工智能芯片启动设计高性能、低能耗的人工智能芯片的智能优势。具体地说,该公司意识到x 2.5帧每秒(FPS)每瓦特改进硅镁层。ai™低功率MLSoC™。在一个舒适的硅谷2023会议上表示今年春天,Sounil Biswas硅镁层硅工程总监。ai,指出后续硅验证证明优秀的相关性Synopsys对此瘤牛授权数据和测量。

补充瘤牛授权并使RTL为低功率设计,我们提供Synopsys对此PrimePower RTLRTL的一股力量分析和还原工具,一直达到准确的结果(在+ / - 15%的可支应实现)配对timing-driven,身体意识到综合能力与综合计算引擎。Synopsys对此PrimePower RTL还提供了循序渐进的指导,帮助人工智能芯片设计者进一步减少故障和降低整体功耗。

额外的PPA优化实现Synopsys对此融合编译器™、全面和综合RTL-to-GDSII实现系统。通过这一具有里程碑意义的测试后,人工智能芯片设计进行了分析Synopsys对此PrimePower,金色的力量的结果的解决方案。经全球领先的铸造厂3 nm流程,Synopsys对此PrimePower提供快速与分布式处理运行时性能,实现高精度香料和硅的百分之几签收测量。

设计差异化的硅边缘AI推理

AI加速器使许多流行的应用程序能够快速分析大量的信息、准确地推断出结果,以毫秒为单位。同时,实现最佳性能/瓦特芯片设计师仍然是一个首要任务。在边缘尤其如此,性能通常是最小的功率限制信封和较小的模具尺寸。

然而,这些约束创造新的机会为硅半导体公司设计差异化的精确校准PPA与低延迟的特定需求,高带宽的应用程序。例如,自主导航的要求计算响应延迟限制20μs,而语音和视频助理必须理解口语关键字在不到10μs和手势在几百毫秒。成功实现PPA权衡,芯片设计者应该统筹兼顾能力优化利用端到端解决方案,跨越早期建筑勘探黄金签收。

你可以了解更多关于Synopsys对此这里节能soc的解决方案

继续阅读

Baidu