了解三大挑战,克服 AI 晶片可靠度设计难关

了解三大挑战,克服 AI 晶片可靠度设计难关

COVID-19 在 2020 年上半年占据了全世界的版面,在疫情被各地区控制下,2020 年下半年,可以感受到各项防疫措施都逐步放宽。然而在 COVID-19 疫苗开发出来之前,仍然必须戒慎恐惧。谈到防疫与药物开发,近来 AI 技术在 COVID-19 上的“热影像辨识防疫”、“病毒基因变异与疫情数据分析”及“候选药物筛选”扮演重要角色,提供快速数据分析能力。

AI 技术是透过模拟人脑的类神经网络,经过深度学习,取得物件特征参数,产生模拟人脑的判断能力。这看似很艰深的 AI 技术,其实早已进入大众的日常生活,包括手机语音输入辨识能力,几乎达真人辨识水准即是一例子。

除了演算法与大数据的演进与支援之外,硬件方面,AI 晶片依不同的应用领域,不断往高效能、高频宽或低耗电等特性演进(参见表一),因此晶片硬件效能不断提升,更是支持 AI 应用领域不断进步的必要因素。

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图2张

▲表一: AI 晶片应用种类

AI 运用在 COVID-19 防疫上,其晶片的可靠度与效能是重要关键。由于 AI 云端运算晶片具有高功耗特点,AI 终端运算晶片则有低电压的特点。然而这些特点,不仅会影响 AI 晶片的效能与寿命,甚至,也造成 AI 晶片可靠度试验设计手法、设备等,也面临极大挑战。宜特可靠度验证实验室,归纳以下三大挑战:

一、云端 AI 晶片的超高功耗挑战:热消散与热平衡能力

资料中心的云端 AI 晶片,肩负人工智慧的深度学习任务,必须提高效能运算,也因此将耗费大量电能,其单一颗晶片耗电量甚至超过 200W(瓦),伴随产生的高热,将使得晶片老化速度加剧。

因此,一年必须连续工作 365 天的云端运算 AI 晶片,对老化产生的可靠度问题更需审慎评估。

可靠度测试原理必须抽样(sampling)一定数量的 IC 做实验,来预估整个母体的生命周期与故障机率。通常抽样的数量为 77 颗,当 77 颗百瓦的晶片一起在一台可靠度系统设备做 1000 小时的可靠度测试时,上万瓦的功率热能,将严格考验可靠度测试系统的热消散与热平衡能力。

唯有精准的热消散与热平衡能力,才能让每一颗晶片在执行各种不同运算模式时,晶片都能维持稳定的 Junction 温度(Tj)(PN 接面温度),如此才能够准确预估 IC 的生命周期。因此,高效能云端 AI 晶片所产能的热能,如何消散与控制,将是 IC 可靠度实验设计面临的挑战。

二、终端 AI 晶片的超低电压挑战:多组系统电源需求,挑战可靠度测试极限

终端 AI 晶片因其应用环境的特殊性,除了运算效能外,还被要求低耗电,例如行动装置、IoT、无人机、电动车自动驾驶辅助等,皆需仰赖电池供电。

虽然半导体制程不断进步,相同逻辑闸数下的动态电流越来越省电,但是由于尺寸微缩的物理特性效应下,电晶体静态漏电流却反而增加,摩尔定律每两年电晶体面积缩减一半的好处,并无法让晶片的功耗密度减半,相同面积的晶片将会消耗比以往更大的电流。

故为了降低功耗,除了低工作电压设计外,多工作电压与多闸极电压的设计普遍可见。然而,对于可靠度测试系统而言,动辄 10 组以上的系统电源需求,将挑战可靠度设备电源数目的极限。

同时 1V 或甚至低于 1V 的 core power(主电源)低工作电压,将使得 IC power margin (余裕度)越来越小,电路板上的 power IR drop(电压降)或者 power ripple(涟波),将容易造成 IC 可靠度测试出错,因此规划一个终端 AI 晶片的 HTOL 可靠度测试环境,从设备选择、PCB 电路板模拟与制作,以及各种细节与设计上的考量,必须大幅严谨于ㄧ般逻辑 IC。

三、异质整合挑战:热消散路径复杂化

异质整合(heterogeneous integration)是 AI 晶片一项重要的趋势,为了加快不同晶片间的传输频宽,不同制程的晶片被整合在一个封装内,常见如 HBM/Sensor/MEMS/Antenna 等,经由 TSV/RDL/bump/interposer 等制程手法,让各个晶片并排或堆叠起来(图一),这将大幅度提升异质晶片间的资料传递效率与得到更低的耗电。

但是,越复杂的堆叠架构,热产生与热消散路径将复杂化,例如较大功耗晶片不一定位在封装中心位置,各个晶片厚度可能不尽相同,将使得晶片产生的热消散与热感测方式不同于传统封装,如何在可靠度测试时正确量测与监控晶片温度变得更加复杂。

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图3张

▲图一:异质整合晶片

综上所述,如何面对热消散与热平衡能力、测试系统的电压极限、以及异质整合的热消散路径复杂化,是在做可靠度设计验证时,必须克服的挑战。对此,宜特可靠度验证实验室提出如下建议。

利用液态冷却系统(Liquid cooling system),稳定控制高功耗 AI 晶片产生的热能

散热设计功率(thermal design power,简称 TDP)是 CPU 晶片对主机板“散热能力”的要求规格,目前台式电脑 CPU 的 TDP 规格最高在 150 瓦(W)左右,电竞玩家为了维持 CPU 长时间高效高频工作,往往升级主机板、散热片、风扇等等配件,使得升级后的系统散热能力高于 TDP 要求,让 CPU 能长时间高频工作,而不会发生过热降频甚至休眠等问题。

但是服务器及 HPC 等云端 AI 晶片,当前 TDP 规格已达 200W 以上超高发热功耗。而晶片因封装结构与材料等因素,已难以使用空气对流当散热媒介将晶片 junction 温度控制在目标值。

尤其可靠度测试要求的目标温度在 125C,远高于台式电脑的 70C,通常 125C 时晶片功耗墙已处于解锁状态,故一不小心极可能造成晶片高温烧毁。 因此,当如此高功耗的IC做高温可靠度测试时,测试系统必须提供更快速的热消散能力。

宜特可靠度验证实验室的解法是,利用更高效的液态冷却控制调节系统(Liquid cooling system),搭配客制化液态循环 socket(图二),此系统利用液态热交换速率优于气态的特性,以及即时监控晶片温度与调节液态流速等方法,稳定控制超高功耗 AI 晶片产生的热能,成功收集可靠度实验数据。

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图4张

▲图二: 液态冷却系统(Liquid cooling socket)(图片来源:Enplas)

测试电路板电源层超前模拟,免去生产组装后效能不符

AI 晶片采用先进制程,超低的工作电压已来到 1V 以下。然而,当高电流经过电路板走线时,容易在电路板上产生由低到高的压降(DC IR drop)(图三),IR drop 将压低原本已超低的工作电压,容易使得AI晶片因电源电压余裕度(Power Voltage Margin)不足而失效。

此外,当 IC power 抽载大电流时,也会产生各种频率的 SSN(simultaneous switching noise)。

而电路板的电源层阻抗(Power plane impedance),在各种不同抽载频率下,因本身布线(Layout)因素可能反映出高低不一的阻抗(impedance)值(图四)当阻抗值在某个频率下超越目标值时,就会造成严重杂讯(power AC noise)与涟波(power ripple)也会使得 AI 晶片因电源杂讯余裕度(power noise margin)不足而失效。

如何解 ? 以宜特可靠度实验室为例,目前有许多布线(layout)辅助设计工具,可以在可靠度电路板设计初期经由软件分析模拟,调整电源走线长短宽窄、灌孔点大小与数目、解偶合(decoupling)电容值与放置位置等,改善 IR drop 与 power plane impedance 等问题,避免掉测试电路板生产组装完成后,才面临效能不符问题。

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图5张

▲图三: IR drop simulation

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图6张

▲图四: power plane impedance simulation

客制化治具,贴合高低不同的裸晶(die)

AI 异质整合晶片,里头的裸晶(die)高低不同,因此,在可靠度验证测试的治具准备,必须依照不同的晶片,客制化 IC socket(测试座)和散热系统(Heat Sink)和热感测元件(Sensor),才能够紧密贴合高低不同的裸晶(die),借此增加热消散能力,温度量测与监控才能更准确(图五)。

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图7张

▲图五:客制化 IC 测试 socket

Thermal diode监控电路,监控 IC 本体温度

云端 AI 晶片的超高功耗,在进行可靠度测试时,容易因晶片本体温度波动太快导致无法及时消散热能,造成产品非预期性故障,例如热失控(Thermal Runaway),因此,当 IC 内建 thermal diode 元件时,iST 可靠度系统与可靠度测试板设计,可以客制化 thermal diode 监控电路,来监控 IC 内部温度,将可监测到最即时与准确的 junction 温度(图六)。

此作法反应速度快,搭配前面提到的高效液态冷却控制调节系统,更适合超高功耗 AI 晶片快速温度变化,藉以提供即时热消散动作。此外 thermal diode 监控电路,可针对 3D 封装的多晶体(multi-chip)结构下,独立量测出各个晶片的温度,以达到更精确的可靠度数据收集。

了解三大挑战,克服 AI 晶片可靠度设计难关 AI与大数据 图8张

▲图六: IC thermal diode 监控电路例子

宜特可靠度验证实验室从早期面对一般消费型晶片、车用晶片、5G 晶片,到至今的 AI 晶片,有相当多的实战经验,来解决可靠度试验设计时,面临 AI 超高功率、超低电压,以及异质整合等问题,可以提供您精确的温度电压等可靠度测试数据,提升 AI 晶片的可靠度。

本文与各位长久以来支持宜特的您,分享检测验证经验,若您想要进一步了解 AI 晶片的解决方案挑战与图表,请回信给宜特,宜特将手刀奉上一张由可靠度验证实验室精心制作的图表,让您秒懂面对不同种的AI晶片的可靠度设计验证挑战,可以选用何种解决方案,请洽 +886-3-579-9909 分机 1068 邱小姐│Email:marketing_tw@istgroup.com。

(首图来源:Shutterstock)
(图片来源:宜特科技)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。