EEJournal

专题文章
现在就订阅

基于sram的fpga的辐射处理(下)

正如我们在第1部分在这个由两部分组成的超级迷你系列中,各种形式的辐射长期以来一直是电子系统设计师的祸害,随着集成电路制造过程采用越来越小的结构,辐射的影响变得越来越隐蔽和普遍。

我们还介绍了电磁辐射(EM辐射或EMR)的概念,其力载体是一种称为光子的无质量粒子,以及具有质量的粒子形式的辐射——主要是电子、质子、中子和剥去电子壳层的原子核。当这些粒子中的任何一个粒子在撞击一个原子或分子(包括在半导体中形成晶格的原子)时,能够传递足够的能量剥离一个或多个电子,并在其尾部留下一个正离子,那么这种粒子就被称为“电离辐射”。

有一个话题我们没有提到,但与我们的讨论有关,那就是“宇宙射线”。事实上,这个名字中的“射线”部分是一个基于历史失误的错误命名。当宇宙射线第一次被发现时,人们错误地认为它们主要是x射线和伽马射线形式的EMR。后来人们发现,宇宙射线是一种高能粒子,主要来自太阳系外,是超新星等宇宙事件的结果。

原始宇宙射线起源于地球大气层之外,其中约99%是已知原子的原子核,而约1%是孤电子。在原子核中,大约90%是简单质子(即氢原子核),9%是α粒子(即氦原子核),1%是较重元素的原子核。(有一小部分是稳定的反物质粒子,如正电子或反质子。)当一次宇宙射线撞击地球大气层时,它可能会产生大量次级粒子,这些次级粒子穿透大气层,有时甚至到达地球表面。

迄今为止探测到的能量最高的超高能宇宙射线(UHECRs)接近大型强子对撞机(LHC)加速粒子能量的4000万倍。迄今为止观测到的能量最高的宇宙射线,其能量相当于一个棒球以每小时90公里(56英里)的速度运动时的动能。我不知道你怎么想,但一想到这个我就热泪盈眶。你能想象所有能量集中在集成电路的一个小区域的效果吗?

什么是基于sram的FPGA?

本专栏的重点是减轻基于sram的fpga中的辐射影响。不幸的是,在过去,我发现有些人对术语“基于SRAM”感到困惑,因为任何现代FPGA的可编程结构都包含SRAM块,以及以查找表(lut)、多路复用器和其他“东西”形式出现的寄存器和组合逻辑。

高度简化的FPGA可编程结构的描述
(来源:Max Maxfield)

我总是认为FPGA是在可编程互连的“海洋”中由无数可编程逻辑的小“岛屿”组成。关于FPGA的事情-它的定义特征,你可能会说-是它可以被编程(配置)来执行它的设计者想要的几乎任何逻辑功能的组合。这是通过配置单元来实现的,配置单元用于定义逻辑块的功能以及这些块相互连接和与外部世界连接的方式。

配置单元可以使用各种实现技术来实现,例如反融合单元、闪存单元和SRAM单元。因此,当我们将FPGA称为“基于反熔断器”或“基于闪存”或“基于sram”时,我们谈论的是用于实现其配置单元的技术。

基于抗熔断器的配置单元几乎不受辐射影响,但它们是一次性可编程的(OTP),这意味着一旦你对设备进行了编程,就无法回头。另一方面,这些器件是非易失性的(当电源从系统中移除时,它们还记得自己的配置),这意味着使用这种技术实现的fpga是“即时开启”的。

基于flash的配置单元也是非易失性的,因此使用该技术实现的fpga也是“即时开启”的。除此之外,这使它们成为电源管理控制应用程序的理想选择,在这些应用程序中,它们是第一个上电和最后一个下电的设备。与基于防熔断器的fpga不同,基于闪存的设备可以被重新编程。说实话,在我的印象中,基于闪存的配置细胞对辐射的影响相对免疫,但今天早些时候,当我写下这些话时,我收到了来自彼得·史密斯,曾他说:“我花了数年时间分析seu在航空电子设备中的可能性。在10万英尺以下的高度,最大的威胁是自由中子。(小提示:闪光细胞很容易受到x射线的影响)”

最后,我们有基于sram的配置单元。这些是不稳定的(当电源从系统中移除时,它们会忘记自己的配置),这意味着使用这种技术实现的fpga需要在电源首次应用到系统时加载它们的配置。具有基于sram配置单元的fpga的一大优势是,它们可以在最新和最好的CMOS技术节点上实现。相比之下,antifuse和基于flash的设备需要额外的处理步骤,因此它们通常比基于sram的设备滞后一到两个技术节点。

回到本专栏的重点,我们需要考虑基于SRAM的fpga的两个方面:(a)寄存器,SRAM块中的存储单元,以及设计者和/或用户所看到的组合逻辑,以及(b)用于对设备编程的基于SRAM的配置单元。让我们从设计人员看到的逻辑开始,然后继续考虑配置单元格。

减轻登记册级别的违例罚款

第1部分我们引入了单事件效应(SEEs)的概念,它也可以被称为单事件现象(SEPs),可以由单个辐射事件触发。单个事件反转(SEU)是当辐射事件“翻转”寄存器位或存储单元时发生的SEE(将其内容从0更改为1,或反之亦然)。

单个事件打乱(SEU)导致寄存器位翻转(来源:Max Maxfield)

在寄存器的情况下,减轻SEU的一种方法是在寄存器级实现三重模块冗余(TMR)。这涉及创建寄存器的三个副本,如下所示。

通过在寄存器级别实现三重模块冗余(TMR)来减轻seu(来源:Max Maxfield)

一个投票回路被用来接受来自三个登记处的多数票(三分之二)。在这种情况下,SEU将被限制在受影响的寄存器上,它将在下一个时钟周期自动从系统中清除。

减轻寄存器级别的set

SEE的另一种形式是单一事件瞬变(SET),这是一个辐射事件,它冲击组合逻辑块,导致脉冲、故障或峰值。

组合逻辑中的单个事件瞬态(SET)(来源:Max Maxfield)

如果SET在下一个时钟到达之前已经清除(并且假设它没有违反下游寄存器的设置或保持时间),那么就没有问题。然而,如果SET被打卡到下游寄存器和/或导致该寄存器进入亚稳态条件,则SET将被转换为SEU。

减轻SET的一种方法是延迟组合逻辑的输出,以便“错开”它到达TMR寄存器的输入的方式。

通过添加延迟来缓解set(来源:Max Maxfield)

另一个需要关注的领域是set和seu在有限状态机(fsm)中导致转换到无效状态(或在良好状态之间的无效转换),但这是另一个话题了。

在设计、芯片、电路板和系统级别减轻set和seu

在不久的过去,辐射主要被认为是航空航天工业的一个问题,特别是在深空探测器飞往木星及其卫星周围等恶劣环境的情况下。

关键是,这种系统的创造者过去财力雄厚,他们准备为特殊用途的fpga支付巨额资金,这些fpga在寄存器级别拥有SET延迟元素和TMR等功能。我相信这些小流氓可能花费高达14万美元,一个相对低性能,低容量的设备,这肯定会让我停下来思考。

另一个问题是,这些设备是基于抗熔断技术,这是一次性可编程(OTP)。就配置单元而言,这最大限度地减少了辐射问题,但这也意味着设计人员失去了可重新编程fpga所提供的关键优势之一。一旦“好奇号”探测器在火星上着陆,或者“新视野号”太空探测器经过冥王星,正在飞往柯伊伯带的其他天体,如果出了问题,或者你发现了更好的方法,但你的fpga无法重新编程,事情就会变得有点尴尬。

如今,即使是军事和航空航天工业也开始精打细算,这意味着他们越来越倾向于使用商用现货(COTS)设备。辐射问题的一个解决方案是使用常规的现成fpga,并通过在同一器件中复制设计三次,然后对设计的输出执行投票功能,在设计级别上执行TMR。

令人高兴的是,一些工具套件允许开发人员简单地说,“我希望将TMR应用到设计的这一部分”,并且这些工具做到了这一点,这消除了许多痛苦和把事情搞糟的可能性。这里需要考虑的一件事是,可能没有必要对设计的所有方面都进行TMR。例如,假设我们有一颗卫星正在拍摄地球的高分辨率图像。每个图像可以首先存储在FPGA的SRAM中并进行预处理。现在假设一个辐射事件导致图像中的一个比特被翻转。我们真的在乎吗?所产生的伪影很可能被任何图像处理算法过滤掉,几乎立即就会拍摄一张新图像。相比之下,在包含任何关键飞行控制变量和例程的SRAM块的情况下,我们绝对希望对该块进行TMR,并使用任何其他技术来维护其数据的完整性。

说到这里,我们还希望任何部署在恶劣环境中的fpga都能使用纠错码(ECC)内存,ECC是指以这种方式实现的内存,它可以用于检测和纠正任何内部数据损坏,例如由辐射事件引起的数据损坏。在第1部分中,我们注意到seu被称为“软错误”,因为它们可以被纠正(如果您知道自己在做什么)。这就引出了软错误检测(SED)和软错误修正(SEC)的概念。

此外,术语“内存清洗”指的是定期从每个内存位置读取,用错误纠正代码纠正比特错误(如果有的话),然后将纠正的数据写回相同的位置。除了任务关键型和安全关键型系统,内存清洗也用于高辐射环境下的系统。

与通过在单个FPGA中复制设计来执行TMR相反,我们可能决定在FPGA本身上执行TMR;也就是说,在电路板上有三个FPGA副本,并对芯片的输出执行投票功能。或者,我们可以决定在董事会级别或系统级别执行TMR。

对于某些应用程序,可以认为TMR仅提供一个起点。还有四重模块化冗余(QMR),它使用四个单元而不是三个单元来提高可靠性,设计师可以根据需要选择使用更多单元。

在真正极端的情况下,任务关键型和安全关键型系统的创建者可能决定让不同的团队使用不同的工具链和不一致的实现技术实现一个设计的多个版本。投票功能将在这些独立实现的输出上执行。我不确定它的官方名称是什么,所以让我们称之为“硬件多样性”,直到有人告诉我们不同的说法。可悲的是,即使我们走到这些极端,我们也不一定能消除所有可能的错误,因为每个人都在使用相同的核心规范,许多问题都源于规范的模糊性。

mcu、MBUs和sel

是只有我这么想,还是现在的TLAs(三个字母的缩写)比以前多了?我开始明白,为什么当我的家人和朋友冒失地问我在写什么,而我愚蠢地试图告诉他们时,他们的眼睛会呆滞。

在我们继续讨论之前,可能值得注意的是,我们之前的讨论可能会有一些误导。例如,我在想我们提到的那部分,“当这些粒子中的任何一个,当它撞击一个原子或分子时,可以传递足够的能量,剥离一个或多个电子……”

不幸的是,有些人认为这意味着只有单个原子或分子受到影响。事实是,让我们说“令人兴奋”。请看下面的图片。

辐射事件留下了“兴奋”的痕迹(来源:Max Maxfield)

当一个高能粒子形式的辐射事件(红色箭头)穿过硅时,它会在它的尾迹上留下+/-电荷。这些电荷随后在事件节点(蓝色箭头)收集。

但是等等,还有更多,因为当我们谈论单个事件扰动(SEU)时,我们倾向于认为它影响单个寄存器元素或存储单元,但情况不一定如此。可悲的是,不断缩小的制造过程正在导致存储器经历多单元扰动(mcu)的趋势。这意味着,由于硅中的结构现在如此接近,一个SEU实际上可能会打乱多个存储单元,如下图所示。

辐射事件可能影响单个记忆单元(左)或多个记忆单元(右)(图片来源:Max Maxfield)

此外,术语多位反转(MBU)指的是发生在同一数据字或帧内的MCU,这可能会对系统纠正错误的能力产生负面影响。

最后,但肯定不是最不重要的,关于我们在这里的讨论,我们还必须担心辐射事件触发单事件闭锁(SEL)。这是指在CMOS电路的电源和接地轨道之间创建一个低阻抗路径(有效的短路)。如果发生SEL,需要立即对设备进行电源循环(关闭和再次打开),以防止严重损坏。不用说,在许多情况下,必须为系统供电循环可能是有问题的。

减轻SRAM配置单元中的辐射事件

做事几乎总是有许多不同的方法。例如,对于基于sram的配置单元格,一种技术是不断扫描配置单元格,并根据其内容生成循环冗余检查(CRC)值。然后将该CRC与与当前配置相关联的“金色CRC”进行比较。如果检测到不匹配,系统可以暂停,同时重新加载FPGA的配置。

当TMR应用于单个FPGA内部的设计时,可以使用复杂的版本。在这种情况下,可以重新加载与受影响的设计副本相关联的配置,同时其他两个副本继续工作。

早在2011年,Xilinx公司就推出了65纳米“太空级”,Virtex-5QV FPGA.与常规基于sram的fpga中使用的6晶体管(6T)配置单元相反,Virtex-5QV拥有12T配置单元。在这种情况下,每个细胞都是由一个双连锁锁存器形成的,只能通过双互补节点的直接电离来“翻转”。这不是通过创建一个复制的6T细胞来简单地利用冗余的问题。在12T细胞的例子中,细胞一半中的每个点在另一半中都有一个互补点,相同的电离粒子必须打乱两个互补点,细胞的值才会被破坏。

这确实是一个聪明的想法,但它确实会导致巨大的开销,因为fpga可以包含数百万个配置单元。此外,针对狭窄市场的特殊设备意味着这些设备的价格不会落在成本曲线的“便宜而令人满意”的部分(正如老话所说,“如果你必须问,你就买不起”)。

在我考虑这个问题的时候,还有一点可能会让基于闪存的fpga用户感兴趣,他们相信闪存配置单元相对不受辐射的影响。在许多情况下,闪存配置存储器被实现为芯片上的一个独立块。该块伴随着“阴影”SRAM配置单元,分布在整个芯片表面。当电源第一次应用到这些设备上时,配置以大规模并行的方式从闪存配置内存复制到SRAM配置单元中,此时我们又不得不担心辐射事件翻转我们的位(我讨厌这种情况发生)。

在芯片级消除set、seu、sel、mcu和MBUs

在寄存器级别上拥有TMR和特殊的12T配置细胞是很好的,但如果我们能从一开始就防止大多数辐射诱导效应的发生,这不是很好吗?

你可以想象当我发现那些小流氓在晶格半导体你们已经行了这事。使用三星的28纳米完全耗尽硅绝缘体(FD-SOI)工艺,莱迪思的伙计们介绍了他们的联系平台(在撰写本文时,Lattice是唯一使用FD-SOI工艺的低功耗FPGA供应商)。

通过改变FD-SOI衬底的偏压,用户可以决定是希望实现高性能(HP)还是低功耗(LP)。更好的是,系统可以在程序控制下实时来回切换。

但在这篇专栏文章中,这个过程真正有趣的地方在于它具有固有的抗辐射能力。除此之外,这个过程不受SEL条件的影响,这意味着在关键任务情况下不存在停机时间,而在这种情况下,通常需要一个电源周期才能退出闭锁状态。

正如我们前面所讨论的,当以高能粒子形式的辐射事件穿过寄存器元件或存储单元时,它会使半导体材料电离(产生电荷)并产生短暂的电流脉冲(电荷收集)。这个电流脉冲可能足以扰乱存储值,导致一个SEU。

让我们首先考虑如下所示的批量CMOS工艺的表示。辐射事件(红色箭头)通过硅产生电离路径,在其尾迹中留下+/-电荷。这些电荷随后在事件节点(蓝色箭头)收集。

seu:辐射事件对大块CMOS工艺(左)和FD-SOI工艺(右)影响的比较(图片来源:Max Maxfield)

相比之下,在FD-SOI过程中,埋在地下的氧化物层(黄色)将节点与大量产生的电荷隔离开来。任何低于氧化层的电荷都不能在敏感节点上收集。更少的电荷意味着更小的瞬态电流脉冲,而更小的瞬态电流脉冲不太可能破坏寄存器元件或存储单元。

更好的是,FD-SOI过程可以防止mcu和MBUs。再一次,让我们开始考虑如下所示的批量CMOS工艺的表示。与之前一样,辐射事件(红色箭头)在硅中产生电离路径,在其尾迹中留下+/-电荷。在这种情况下,除了在事件节点(蓝色箭头)收集之外,这些电荷也可能在相邻节点(紫色箭头)收集,可能会形成MCU或MBU。

mcu和MBUs:辐射事件对大块CMOS工艺(左)和FD-SOI工艺(右)影响的比较(图片来源:Max Maxfield)

相比之下,在FD-SOI过程中,隐藏的氧化物层(黄色)极大地缩小了每个单元的敏感区域,从而使单个粒子轨迹更难以影响多个比特。反过来,这将导致生成mcu和MBUs的数量大幅减少。

将FIT率降低到几乎为零

任务关键型和安全关键型系统的设计者使用FIT(及时故障率)的概念。设备的FIT率是十亿分之一(109设备运行小时数,(例如,1个设备运行10亿小时,1000个设备运行100万小时,100万个设备运行1000小时,或其他组合)。

在28nm技术节点上采用批量CMOS工艺实现的典型FPGA的情况下,FIT率约为100。相比之下,在使用Nexus平台的FDS-OI工艺在28nm技术节点实现的Lattice FPGA的情况下,FIT率仅为1。这意味着,从一开始,Nexus平台就将FIT率提高了两个数量级。

但这仅仅是个开始,因为莱迪思公司的伙计们正致力于将FIT率降至零。基于Nexus平台推出的第一款fpga是CrossLink-NX嵌入式视觉和处理家族..

前面,我们简要地提到了错误纠正码(ECC)内存、软错误检测(SED)、软错误纠正(SEC)和内存擦除的概念。

设计人员通常必须自己实现内存清洗功能,从而消耗宝贵的可编程逻辑资源。相比之下,CrossLink-NX fpga包括硬知识产权(IP)块,自动执行基于ecc的内存清洗作为后台进程。

在基于sram的配置内存的情况下,CrossLink-NX fpga具有内置SED/SEC块,以促进逐帧快速检测和纠正错误,而不需要外部电路。尽管由于上述原因,这种错误极为罕见,但理论上是可能的。幸运的是,即使辐射事件以某种方式导致配置单元翻转状态,这个硬IP也会再次将其翻转回来。

要学的东西太多,时间太少……

辐射如何影响电子电路和系统是一个很大的话题。实际上,我们在这里只触及了表面(例如,我们甚至没有考虑辐射如何影响模拟和混合信号集成电路)。

话虽如此,我认为我们从这个主题中获得了相当大的收获(好吧,可能是很大的收获)。我知道我对一般的技术感到兴奋,但我必须承认,三星的28纳米FD-SOI工艺和莱迪思的Nexus平台尤其令人兴奋。我认为这是非常棒的,我们现在有基于sram的fpga,我们可以在深空探测等令人兴奋的项目中使用,同时充分利用它们的可重构特性,不像过去的技术让我们渴望更多。

你说呢?我非常有兴趣听听你们在辐射影响电子系统方面的经验,以及任何与辐射有关的宝贵知识和琐事,你们愿意在下面的评论中分享。

关于“处理基于sram的fpga中的辐射(下)”的4个想法

  1. FIT是描述极低故障率的通用度量单位,而不是其本身的度量标准。在本文的上下文中,您将描述FIT中的软错误率(SER)。作为另一种用途:汽车安全工程师会使用FIT来描述部件的随机故障率(浴缸曲线的底部)。

    知道自己在看什么的人通常可以分辨出所引用的是什么,但仅通过度量单位引用度量是一个糟糕的做法。例如,考虑用“PPM率是15”来描述池水。如果没有上下文,这就没有意义了:您在测量什么?氯,盐,碎片??

留下回复

有特色的博客
2023年2月3日
我写了第一篇文章《the Chiplet Summit》,摘自最近在圣何塞举行的Chiplet Summit,如果你还没看过,你可能应该先看看。会议的主题是:摩尔定律已死。我们只剩下包装了。正如我在最后的总结中所说的……
2023年2月2日
我们分享了对2023年高性能计算(HPC)的预测,包括边缘计算解决方案的增长以及人工智能和机器学习的兴起。文章“2023年五大高性能计算趋势”首先出现在“从硅到软件”....上
2023年1月30日
聪明地工作,而不是更努力地工作。大家不都是这么跟你说的吗?当然,这是很好的建议,... ...
2023年1月19日
你是否在调整表带或更换手表电池时遇到了问题?如果是这样,我是好消息的携带者....

有特色的视频

Synopsys 224G和112G以太网PHY IP OIF在ECOC 2022互操作

Synopsys对此

这段特色视频展示了Synopsys 224G和112G以太网PHY IP中长到达性能的四个演示,与第三方通道和serde互操作。

了解更多

特色粉笔谈话亚博里的电子竞技

使用TI的Code Free无刷直流电机驱动器解决设计挑战

逮老鼠的电子产品而且德州仪器公司

设计无刷直流电动机系统会给我们带来各种困难的设计挑战,包括电机减速、可靠的电机启动和硬件复杂性。在Chalk Talk的这一集中,来自亚博里的电子竞技德州仪器的Vishnu Balaraj和Amelia Dalton研究了BLDC电机设计的两种新的解决方案,它们是免费代码,无传感器和易于使用。他们审查MCF8316A和MCT8316A电机驱动器的功能,并研究这些解决方案如何使您的下一个BLDC设计比以往任何时候都更容易。

点击这里了解更多关于德州仪器MCF8361A无传感器FOC三相无刷直流驱动器的信息

Baidu