首页>论文>正文
日期
09/01
2022
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

Teledyne e2v宇航级数字处理产品的辐射缓解技术
收藏
2022-09-01 11:19:37来源: 中国机器视觉网

1.太空辐射效应的介绍

辐射对半导体的影响与多个因数有关,例如工艺制程、器件几何结构、电路实现和器件应用的太空辐射环境(低地球轨道(LEO)、中地球轨道(MEO)或地球静止/地球同步轨道(GEO/GSO))。太空中有3种主要的辐射源:银河宇宙射线、太阳辐射和辐射带(粒子受地球磁场的影响聚集在地球附近的某个区域)。在特定辐射环境下半导体器件的性能寿命通常用总电离剂量(TID)和单粒子效应发生的频率(SEE)表述。太空中的电子系统所受的辐射与轨道、任务寿命和屏蔽措施有关。辐射带附近的离子通量的能量范围在0.1到10MeV之间,会击穿半导体的封装并导致总电离剂量(TID)效应和单粒子效应(SEE)。具体来说,动能超过300KeV 的辐射离子有更大的潜力穿透塑料、陶瓷或金属的半导体封装从而影响到内部的裸片。

辐射通过两种方式影响半导体:1)累积效应(很多高能粒子通过而导致的长期效应)或2)单个粒子通过而导致的事件。累积辐射剂量效应通常用总电离剂量(TID)量化,即捕获并计算特定器件内由辐射产生的电荷,它会随时间的累积导致器件参数的漂移。由单个粒子产生的效应被称为单粒子效应(SEE),它是一种随机/瞬时的中断。

SEE会导致破坏性或非破坏性的异常。非破坏性的SEE会破坏输出或数据状态,但不会影响或损坏器件本身。当发生非破坏性SEE时,只要非平衡电荷和其效应完成重组并保持稳定,就无需外部输入来恢复系统的状态。非破坏性SEE包括:SET(单粒子瞬变)、SEU(单粒子翻转)、SEFI(单粒子功能中断)和某些限制最大电流并不造成器件损坏的SEL(单粒子栓锁)。破坏性的SEE会破坏输出或数据状态,并导致半导体器件损坏。破坏性SEE包括离子撞击导致的低阻抗/大电流对器件造成的永久损坏。如果器件不是永久性损坏,则需重新上电(关/开)以恢复正常运行。除了破坏性的SEL之外,SEGR(单粒子栅穿)和SEB(单粒子烧毁)也是灾难性的事件,它们会导致电源和地之间突然出现低阻抗通路,并在辐射事件结束之后依然存在。

2.TELEDYNE E2V的宇航级数字处理产品的辐射效应

Teledyne e2v用高能重离子和质子对耐辐射CPU和存储器样片进行辐射,在加速器中实现SEE,从而测试待测器件(DUT)的辐射性能。当DUT上电并在正常条件下运行时(SEL是例外,需在最大电压和温度下测试),我们会检测电源电流和输出状态。随后,我们用重离子或质子轰击DUT,并记录电源电流和输出状态的任何瞬态变化。线性能量传递(LET)是电离粒子在单位距离内传递到器件上的能量。LET取决于离子束的离子和能量,因此不同的离子会有不同的LET。LET会影响SEE的概率。LET越高,硅中产生的载流子越多,载流子被困在电场中的概率越大,这种效应是可以被测量的。

对于数字设备,我们监视其被辐射时产生的单粒子效应(SEE)(即由单个高能粒子撞击产生的任何可测量或可观察的性能状态的变化)。SEE包括单粒子翻转(SEU)、单粒子功能中断(SEFI)、单位/多位错误(S/MBE)和单粒子栓锁(SEL)。检测SEE通常需要打开封装以露出裸片的有效区域。例如,采用倒装结构封装的器件需要移除盖子并将裸片打薄至大约75微米,以最大化其所受的辐射影响。

除SEE测试外,我们还进行TID测试,流程如下:1)将晶圆单位封装2)使用自动测试设备(ATE)测试待测器件(DUT)的电性能3)将DUT放在测试板上,使其一半处于正常工作条件4)将测试板暴露于辐射源下,对其进行额定TID的辐射,温度为室温,并检测其状态5)使用ATE重新测试DUT以确保器件的功能依然正常,且没有任何关键参数漂移出数据手册的范围。对于耐辐射器件,Teledyne e2v的总剂量(TID)的目标值是100krad,栓锁(SEL)的免疫值为最低60MeV.cm²/mg。这是面向GEO轨道的参数。即使器件有能力耐受高辐射水平和剂量,它们依然会发生SEU和SEFI事件。

对于存储器产品(例如DDR4),我们通常会检测字错误(SBE和MBE),包括:1)行和列2)SEFI 3)stuck位。对于处理器产品(即LS1046-Space),需检测的错误通常包括:缓存上的SEU以及核心和外设上的SEFI。

从根本上说,太空/卫星研发团队必须准确了解特定的耐辐射存储器和/或CPU器件在太空飞行中可能出现的错误类型。显然,若器件没有出现某种类型的错误,则无需对这种从未发生的错误实施任何缓解技术。而对于出现过某种错误的存储器和处理器器件,则需使用辐射缓解技术以消除或减少错误率,从而优化太空飞行的运行状态。

Teledyne e2v通过分析错误截面与LET的关系并绘制威布尔曲线(图1)来计算器件的SEE概率(即SEU、SEFI等)。为了计算和预测在轨错误率,需将数据拟合到威布尔曲线上。若要完全了解器件对重离子和质子辐射的响应,可能需要进行多次试验。若产品发生任何重大变更,如使用新的硅片设计或版本变更,通常都需要重复进行SEE特性测试。

微信截图_20220901111958.png

图1 SEU截面/位 - 威布尔曲线

另一个例子是QLS1046-Space处理模块(图2)。这个处理模块使用一片LS1046-Space处理器和一片高速DDR4存储器。我们对其进行了多次辐射测试,以测试处理器和存储器的性能。对于DDR4存储器,我们观察到4种不同类型的事件:孤立字错误、行/列错误、SEFI事件和stuck位。

微信截图_20220901112025.png

图2 QLS1046-Space处理模块

在测试存储器时,孤立字错误(图3)是由于记忆单元上的局部离子撞击,改变了1位(SBE)或几位(MBE)的状态,而导致的错误。

微信截图_20220901112043.png

图3 孤立字错误的例子

在完成了器件的测试后,我们可计算出轨道错误率,以估算不采用任何缓解措施时,在特定条件下发生事件的频率。表1是LS1046-Space的SEU错误结果的例子。

3.数字产品的可用的缓解技术

由于测试得到的错误率对于某些应用可能不够低,我们可以采用一些缓解技术,以进一步降低错误率并使其器件达到所需的性能或满足可用性的需求。宇航/卫星开发的辐射缓解技术要求选择并实现耐辐射的器件,并结合最新的尖端的COTS技术以平衡性能和可用性。宇航/卫星的开发遵循两种设计方法:1)传统:使用错误率低、价格昂贵的防辐射设计(RHBD)器件(采用独特的设计以防止器件损坏并减弱辐射的影响,以及抵抗大电离剂量)。这些为特定目的设计的半导体器件通常不会使用最先进的技术。2)新宇航:更注重任务的成功执行,愿意使用耐辐射器件,这些器件使用最新的工艺并可拥有强大的性能。

半导体的辐射耐受性取决于多种可控或不可控的变量。由于错误的发生难以避免,设计带有内置纠错电路(ECC)的耐辐射产品是很重要的,必要时还可使用冗余纠错电路。例如,Teledyne e2v的QLS1046-Space处理模块已完成了开发和测试流程,它使用了多种辐射缓解技术(冗余和非冗余),可满足给定辐射环境下所需的性能指标。为了管理辐射效应,典型的缓解技术需要使用板上ECC(纠错电路)。ECC在DDR4存储器中使用一个专用的额外字节,因此存储器的72位字大小被分为64位的实际数据和8位的纠错码。ECC引擎内置于LS1046-Space处理器的DDR4控制器里。因此,DDR4存储器的ECC字节的行为与其他的数据字节完全相同,而错误缓解由LS1046处理器完成。ECC可检测和纠正SBE,用户只需简单地启用这个功能即可缓解这些错误。避免SBE的累积(由于多次离子撞击导致)非常重要,因为随着时间的推移可能会导致MBE。LS1046还具有一个擦除引擎,可定期扫描整个DDR4存储器的内容,并纠正发生的SBE。

为了解决辐射耐受的问题,我们还采用了电路级(多芯片)减少SEE的方法。常见的电路级设计技术包括:1)增加电路驱动能力并提供驱动冗余2)增加额外的电路用于检测和纠正错误位。错误检测通常需要额外的1位来存储每个数据字的奇偶校验(无论字长如何)。当发生单位翻转(SBU)时,数据的奇偶校验结果与校验位不同。奇偶校验电路允许在两个电路(和存储器宽度)中以最小的成本检测单个位错误。不幸的是,奇偶校验电路的实现有两个缺点:1)它只是一个检测系统,无法纠正错误2)多位翻转(MBU)无法被检测出,会一直留在存储器中。这就是所谓的静默数据损坏。

微信截图_20220901112336.png

表 1 - SEU错误率

如今,耐辐射系统需要不断提高可靠性级别,同时避免发生静默数据损坏,并最大限度地提高处理器的可用性和性能。系统级架构可通过双模冗余电路(DMR,图6)或三模冗余电路(TMR,图7)实现。这两种架构可在逻辑路径中检测SEU或SEFI错误。对于DMR系统,当两个输出不同时,触发错误检测。对于TMR系统,错误检测通过否决裁决器的另外两个有效输入实现。TMR方法需使用2到3倍的硅片面积作为无保护数据路径,并需要专门的仿真工具来识别关键逻辑路径。最激进且最昂贵的错误检测和纠正电路也可通过系统级冗余的方式实现。这需要使用重复的冗余处理器内核——多个相同的内核以lockstep的方式运行(同一时间执行相同的代码)。由于在每个冗余的内核上都运行相同的计算和指令流,这种方法无论在硅片面积和功耗方面都很昂贵。除了上述的错误纠正技术,我们还使用了数据擦除技术。数据擦除技术通过一个后台任务定期检查主存储器是否有错误,并通过冗余数据纠正检测到的错误。它降低了单个可纠正错误积累成不可纠正错误的风险,并可检查数据的不一致性,从而预防硬件和软件系统失效。擦除速率由SEU率决定(例如速率可以是1/天到1/5000天)。

微信截图_20220901112226.png

图6

微信截图_20220901112310.png

图7

结论

如今的CPU和存储器越来越复杂,测试越来越难,而且它们对辐射效应越来越敏感。使用这些器件实现新的辐射缓解技术对未来宇航飞行系统的发展具有重大的战略意义。我们必须测试器件的SEE错误,计算发生错误的概率,以理解辐射效应并实现最有效的辐射缓解技术。最重要的是,深入了解不同的错误率和概率与辐射环境之间的关系,以最低的成本、最少的引入误差实现最大的系统可用性和吞吐带宽。Teledyne e2v可为开发团队提供关于耐辐射产品的信息和支持。客户如有需要,我们可提供专门的辐射缓解应用笔记。