大家好,今天小编来为大家解答揭秘CPU老化之谜:具体表现及应对策略这个问题,很多人还不知道,现在让我们一起来看看吧!
任何拥有电子学学士学位的人都会知道MOSFET的原理是栅极依靠静电势来控制下方导电沟道的深度。如果电位高,则形成深沟道时电流会较大。如果电势低,通道就会消失并且不再导电。如果再想深一点就会知道,导电栅极下面的沟道也是导电的,所以中间必须有绝缘介质将它们隔开,否则就成了连接线而不是晶体管了。如果你再进一步想一想,你就会知道,这种绝缘介质最简单的方法就是将硅氧化成二氧化硅。外人通常没有想到的是,仅二氧化硅是不够的。在工程上,二氧化硅与衬底硅之间的附着力很差,必须添加Si-H键来束缚二氧化硅层。所以介电层和硅之间实际上有一层不是纯SiO2而是SiOH。这就是问题出现的地方。超大规模集成电路能级的微观尺度使得量子效应无法忽视。在通道中流动的电子会因量子能量波动而随机获得暂时的能量,变成热电子,然后跳跃到未知的地方。这称为隧道效应。我找到了详细的解释(隧道电流_百度百科)。对物理感兴趣的同学可以看一下。不感兴趣的同学只要想一下MOSFET关断状态下的漏电流从何而来,为什么是功率指数函数就可以了。这还没有结束。如前所述,存在Si-H键。这种钥匙的特点是容易损坏,又容易恢复。一旦电子发生隧道效应,键就有可能被破坏。此时会产生断裂的键和游离的氢原子。破坏钥匙会增加阈值电压,这意味着原来在0.3V打开的门现在需要0.35V才能打开。这意味着当同样施加1伏电压时,原来的导通电流相当于0.7V,现在相当于0.65V。这就是为什么断裂的键合会减慢芯片的速度,因为导通电流很低并且电压提升很慢。如果电压上升慢,开关门就会慢,最后你的逻辑就会慢。为什么随着时间的推移它会变慢?由于键断裂是随机发生的,因此需要时间来积累。另外,请记住,我们之前提到Si-H键可以恢复,因此基于断裂键的老化效应具有恢复模式。对于NBTI,如果对其施加反向电压,它将进入恢复模式;对于HCI,如果不移动它,它将进入恢复模式。但这些都不太可能在很长一段时间内发生,所以一般来说,芯片会逐渐老化。为什么温度很重要?温度代表宏观物体微观粒子的平均动能。当它变热时,会有更多的热电子,断键的机会就会更大。一般民用电子产品可以使用十几年没有太大问题。汽车电子芯片十年内就差不多准备好了。有开美国车的朋友可以看一下。新车一般都很时尚,十年后基本上就像圣诞树一样,开到哪儿都亮起来。为什么压力会产生影响?对于同一晶体管,电源电压越高,失调电压越高。失调电压越高,氢原子解离得越快,从而抑制自发恢复效应并导致更快的自然老化。为什么超频会有影响?因为超频本质上是利用了芯片厂商所保留的余地,他们无法完全掌握这个过程。芯片制造出来之后会有一个速度测试,然后芯片制造商会考虑到典型的使用条件,预留一定的余量,不是说太满,以免芯片老化后达不到。例如,300ps的芯片如果标记为3GHz,即使老化10%仍然可以达到;但如果把时钟改成3.3GHz的话,稍微老化就达不到了。从用户的角度来看,它只是不亮。这就是它老化的原因。最后说一下前面提到的TDDB。上面只是说Si-H键会断裂,但实际上Si-O键会断裂。断裂后会形成导电点。使用过程中出现随机断裂,经过一定时间后,断裂的Si-O键会形成从沟道到栅极的导电旁路,管子就会击穿。
这就是TDDB。过去为了速度,二氧化硅层被切割得越来越薄,这个问题非常突出。然而,随着高金属栅(HKMG)技术的发展,介质层无法再减薄,这个问题可能没有想象中的那么严重。延伸阅读:负偏压温度不稳定性热载流子注入在线课件EE695A:纳米电子晶体管的可靠性物理,普渡大学M. Alam教授。我强烈推荐这个。阿拉姆教授不知疲倦地工作,把所有幻灯片都放好了,不用担心被偷。他还提供了配音。尤为难得的是,他将NBTI研究的历史带入教学中。很有故事感。如果您有很强的数学背景,您可能想尝试一下。看。
上图右上角的黑白图取自Alam教授的课件。非常感谢。
老化也称为磨损。不影响计算速度,但一定时间后会产生错误。与超频相关的高温和电压将加速这一老化过程。因为涡轮增压技术超过TDP的时间不会太长,一般来说影响不大。我们先来看看CPU的寿命是如何确定的。
浴缸曲线模型
与大多数半导体器件一样,CPU 的可靠性可以通过其故障率来衡量。如果我们以时间为x轴,y轴就是故障率。 CPU故障率曲线如下:
故障率曲线
蓝色曲线称为Infant Mortality,这表明CPU在刚使用时的故障率非常高,但随着产品工作时间的增加,故障率迅速下降。其原因是由于制造和原材料的缺陷造成的。
红色直线称为随机故障,是由质量缺陷、材料弱点、环境、使用不当等因素造成的。它是一个常量,并且在整个CPU的生命周期中都是一个常量。
绿色曲线为磨损期,前期极低,后期出现错误后大幅增加。这是老化失效的原因。
综合以上3条曲线,综合故障率是一条紫色曲线,两端高,中间低。它的形状像一个浴缸。我们称之为浴缸曲线模型。 CPU在生命周期中的这一特点体现在初期的故障率较高。如果没有问题的话,可以长期稳定工作。最终开始老化失效,故障率急剧上升。
老化
很多人看到这里都会感到惊讶:“什么,CPU早期故障率这么高?我刚买的CPU是不是要坏了?” CPU制造商不希望出现大规模退货的情况。毕竟,所有CPU都至少有3年保修。在封装和测试期间,CPU制造商会将CPU放入高温环境中进行浸浴(均热)并施加高压。这样的几个小时就像几个星期一样。把CPU拿出来测试,剔除掉不好的,好的就可以进入浴盆曲线底部的稳定期了,然后才能出货。这个过程称为老化。如图所示:
经过这样的选择后,CPU直接跳过早期过期期,进入稳定期。只有我们的CPU 享有3 年保修。
3年后,CPU的速度会变慢吗?
就像超市里的牛奶保质期是3天一样,实际上大多数牛奶在5天后仍然可以饮用。 3 年保修只是最低值。事实上,大多数CPU都可以使用7年以上,不会出现任何问题。那么CPU在多年后进入磨损期后会发生什么情况呢?首先,CPU的速度是恒定的,它是通过基频乘以一个比率(Ratio)来计算的。目前Intel CPU的基频一般为100MHz。我们使用的3G CPU的Ratio为30,正好是3GHz。整个生命周期中基础频率和Ratio不变,因此CPU运算速度不变。磨损的后果是错误而不是频率降低,并且许多类型的错误都会被CPU的错误检测发现并报告或纠正。详细内容请参考本专栏的另一篇文章。如果计算机硬件出现问题会发生什么?如果发现错误,CPU就开始进入过期期,以后错误会越来越多。
CPU为什么会出现故障?
其实造成CPU故障的原因有很多,我们以后会专门写一篇文章来介绍。它们的统一特点是高温、高电压会加速失效。如图所示:
故障与电压之间的关系(来源anandtech)
粉色曲线是高温曲线,黄色是常温曲线,蓝色是配备了良好的散热系统。可见高温、高电压严重影响CPU的故障率。这就是为什么超频后不再保修的原因。
综上所述
CPU长时间使用后不会变慢。如果我们把电脑和手机的速度变慢归咎于CPU,那就真的错怪了。那么为什么电脑、手机用得越多,速度就越慢呢?原因有很多。软件原因是安装的软件越来越多等;硬件原因可能是风扇脏了,转速慢,导致温度过高,频率下降(CPU风扇停止转动后会发生什么?为什么CPU烧不坏?);或者SSD空间已满/Trim没有启动(杂项闪存额外:为什么手机越来越卡,闪存写入放大),导致速度大幅下降等。
最后,我想强调的是,CPU 的磨损是随着时间的推移而发生的。如果你的电脑闲置几年,CPU不会老化,但SSD的内容会丢失(闪存额外:我们的数据放在固态硬盘上安全吗?)
高温会引起芯片的电子迁移,加速芯片设备的老化。 “电子迁移”是20世纪50年代微电子领域发现的一种从属现象。它是指由电子流动引起的金属原子的运动。由于此时流动的“物体”中已经含有金属原子,所以有人也称其为“金属迁移”。在电流密度非常高的导体上,电子的流动将产生相当大的动量。当这种动量作用在金属原子上时,可能会导致一些金属原子脱离金属表面并四处流动。结果,原本光滑的金属丝表面会变得凹凸不平,造成永久性损坏。这种损害是一个逐渐积累的过程。当这种“凹凸”达到一定程度时,就会造成CPU内部线路开路、短路,最终导致CPU报废。温度越高,电子流的影响越大,完全破坏CPU中一条路径所需的时间就越少,即CPU的寿命就越短。这就是高温会缩短CPU寿命的本质原因。
由于市场和政策原因,某些功能和个别SKU针对某些市场或国家被关闭或单独开放,这超出了本文的范围。本文仅限于作者了解的技术原因和背后的知识。
CPU的生产制造看起来很神秘,技术含量很高。很多对计算机稍有了解的朋友都会知道,CPU中最重要的就是晶体管。要提高CPU的速度,最重要的是提高主频并插入更多的晶体管。因为CPU太小太精密,并且包含相当数量的晶体管,所以绝对不可能用手工来做,只能通过光刻来加工。这就是CPU中可以有这么多晶体管的原因。
整个过程非常复杂和繁琐。幸运的是,Intel很早就发布了一段有趣的视频,生动地展示了整个过程。我在优酷上找到了链接,你可以看一下:
从沙子到硅(由英特尔CPU制造)
优酷视频
整个过程充满了科技感。让我们来揭秘一下为什么i7、i5和部分i3是同一个娘胎里生出来的。为了让读者明白我在说什么,我们首先回顾一下整个CPU的制造过程。由此我们可以看出,同品类的i7、i5以及部分i3都来自同一个晶圆线,最终在内测后期出现了分歧。
CPU制造流程
沙
如果问CPU的原材料是什么,大家很容易给出答案——硅。这是事实,但是硅从哪里来呢?其实它是最不起眼的沙子。然而,你不能只抓一把沙子来制造原料。您必须仔细选择并提取最纯净的硅原料。
2. 熔化和纯化
原材料在高温下熔化。整个硅原料必须是高纯度的,即单晶硅。然后通过旋转拉伸将硅原料从高温容器中取出。此时,圆柱形硅锭就产生了:
得到切片后的元晶圆:
注意,这里的硅锭尺寸各不相同,常见的有200mm、300mm到450mm。在保持硅锭的各种特性的同时增加横截面积是相当困难的。我们将在后续文章中介绍截面尺寸对成本的影响。
3、光刻胶、溶解光刻胶、蚀刻、离子注入、电镀、铜层生长
介绍这些步骤的文章很多,我就不赘述了。当所有这些完成后,我们就得到了成品晶圆Wafer。接下来就是我们介绍的重点了。
4. 晶圆测试
使用探针进行基于电气特性的测试。
5.切片
使用精确控制的切片机来切割每个网格:
终于拿到CPU核心了:死
6. 包装
至此所有步骤都一样,白牌CPU就制作完成了:
值得注意的是,这些白牌CPU都经过了基础测试,工作正常,但这并不意味着它们就是合格产品。 i7、i5和部分i3的划分也发生在后来。
7.分箱
通过测试设备,就是这个小白盒子:
不管是骡子还是马,都到了该出去遛遛的时候了。这一步是封装测试过程的最后一步,通过测量电压、频率、散热、性能、缓存等对CPU进行分类,最糟糕的当然是报废。其次,SKU很多,远远不止i3、i5、i7这样的。例如,i5分为许多不同的类别。你可以看看Intel的CPU。 i5的型号也有很多,对应不同的细分市场。
下一步排序:
然后就可以上市了!
需要分箱的原因
需要指出的是,英特尔所做的并不是营销策略,而是生产过程的结果。步骤2) 和3) 中晶圆会出现很多缺陷。见下图:
大圆圈是晶圆,小方块是CPU的管芯。我们可以看到,缺陷就像散落的芝麻,斑点状,而且越靠近边角,越容易出现。小格子很多(量产后就不会那么多了)。出品率高,品质控制好,但芝麻较少。
缺陷并不可怕,只要有办法控制就好。 CPU 内置有许多门。如果在封装和测试过程中发现问题,出现错误的组件将被关闭。如果出现核心错误,核心将被关闭。如果存在缓存错误,部分缓存将被关闭。如果温度上升很快,如果出现错误,就会锁定低频等等。这就是为什么其中有i5、i7和小sku的原因。
接下来,我们举个例子。下面是4代酷睿(Haswell)的die:
我们可以看到它主要分为几个部分:GPU、4核、System Agent(无核,类似于北桥)、缓存和内存控制器等小组件。比如我们发现3号和4号核心有问题,可以直接关闭3号和4号。如图:
这样就得到了双核裸片,接下来就可以测试速度、TDP等了。经过多次测试和筛选后,分箱完成。
综上所述
同代同品类(仅针对同一细分市场)的i7、i5以及部分i3来自同一条晶圆生产线,其成本是相同的。不生产所有i7并不是Intel故意的阴谋,而是生产过程的结果。目前的做法实际上是一个双赢的解决方案:消费者和生产者都受益。消费者省钱,生产者减少浪费。如果全部生产i7产品,价格将会天价,良率也会严重下降。
由于市场和政策原因,某些功能和个别SKU针对某些市场或国家被关闭或单独开放,这超出了本文的范围。本文的讨论仅限于技术原因及其背后的知识。
其他
最后,我们来澄清一些常见的误解:
i7 不与Xeon 共享晶圆。只能说至强E3/E5/E7的核心部分与核心系列设计几乎相同,但非核心部分却截然不同,不可能使用相同的晶圆。所以i7/i5/i3不是通过Xeon屏蔽某些功能来获得的。同理,Atom系列也不是Core系列的阉割版。
即使都是i7,也不一定是同一个晶圆,芯片尺寸也可能不同。不同部分的模具内部结构是不同的。比如包装中不包含虹膜显卡等,这不是binning可以解决的问题。
i3部分是i5的缩小版,i3部分(主要部分)是Pentium和Celeron的精选版本。关键是QDF#表明了它的起源。
Pentium和Celeron不一定是i3的瘦身版,有些Pentium和Celeron是ATOM产品线的高端版本。
E7 和E5 具有不同的设计和不同的芯片尺寸,因此本文不适用。但E5和E7的SKU就属于这一类
这种做法实际上降低了CPU的整体价格,而不是让大家赔钱。
不仅Intel这样做,AMD也这样做。不仅CPU能做到这一点,GPU也能做到这一点。这是芯片制造商的普遍做法。
CPU核心技术正处于第二、第三阶段的设计和生产。封测阶段虽然有技术含量,但不是核心。中国有封装和测试工厂。
不要以为买了i3质量就不好。保修期内质量有保证,没见过CPU磨损的。 CPU 通常已经过时。
从单位量产出来看,i3性价比最高,i5适中,i7更适合计算密集型用户。
一般来说,打开盖子看骰子的大小就可以判断是否是兄弟。但打开盖子会使保修失效,而且大多数都含有焊料。小心打开盖子拿“奖品”,请勿模仿!请勿模仿!请勿模仿!
经常有朋友问我:“Intel为什么不生产100核的CPU?” “AMD单核打不过英特尔,那么英特尔为什么不生产巨无霸来与英特尔竞争呢?” “质量不够,数量足够”似乎是个好主意。我突然觉得摩尔定律很有前途,我们的相关产业还能再繁荣几年。
幻想是美好的,现实是残酷的。在CPU工艺不变的情况下,堆叠核心必然会增加CPU核心Die的尺寸,这会对产品良率产生很大影响。产品的良率影响着产品的价格,没有人愿意看到自己的钱包缩水。我们来看看Die 尺寸对良率的影响。
模具尺寸和产量(yield)
在上一篇文章中(关于CPU制造的那些事:i7和i5其实是孪生兄弟!),我们介绍了CPU的制造工艺,也顺便提到了Wafer。我们都知道CPU的制造工艺肯定会使用晶圆晶圆。每个CPU核心Die都是从完整的Wafer上切下来的:
CPU 成本的一个重要考虑因素是每个晶圆可以制造多少个Die 以及如何最大限度地减少浪费。我们以目前主流的300mm晶圆为例。首先我们假设我们的晶圆是出自上帝之手,没有任何缺陷。由于Die一般为长方形或正方形,因此浪费了圆形晶圆边缘,如下图:
从图中我们可以看到,随着Die的缩小,浪费的比例也从36%缩小到12.6%。基于极限知识,我们知道如果Die尺寸足够小,理论上我们可以100%使用所有Wafer尺寸。由此我们可以看出,Die越小,浪费就越小,从而降低CPU价格,这对于CPU生产者和消费者来说都是好事。
回顾过去,晶圆制造过程中不可避免地会出现缺陷。这些缺陷就像芝麻一样,分布在整个晶圆上:
如果考虑缺陷,Die的尺寸会严重影响良率:
您可以点击上面的图片(图片更大)。不清晰的红点是晶圆缺陷。当Die较大时,很大概率会在其范围内出现缺陷,只要有缺陷,Die就报废(简化处理);当Die比较小时,其含有缺陷的可能性就大大降低。如图所示,随着模具减少,良率从最初的35.7%提高到95.2%!我们举一个极端的例子。整个晶圆只有一颗晶粒,因此良率只有0%。每一件生产出来的都将被报废。谁会做这种蠢事!
工艺、芯片尺寸和产量
22nm-14nm-10nm,每前进一步都消耗大量投资,芯片厂商还是乐在其中。很大的原因是工艺改进了,管芯变得更小了(或者可以将更多的晶体管封装成相同的尺寸),良率提高了,就省钱了。改进制造工艺还可以带来其他好处,例如更省电、更好的性能等。
但更好的制造工艺通常最初会使晶圆缺陷更有可能导致严重问题,从而降低产量。频率可能无法上升,必须分档到低频。同时,漏电流的增加会增加待机功耗,这就是为什么最初的14nm CPU比22nm CPU的待机功耗更高。
综上所述
100 核的CPU 无法工作,至少现在还不能。据我所知,Die尺寸最大的是Intel的Knight系列和N人工智能板,价格非常昂贵。他们之所以能做这么多核心,是因为每个核心都很简单,占用面积也很小,组合起来的die面积也在可控范围内。
也有同学好奇为什么不使用更大的晶圆呢?那将是我们的下一篇文章。
补充
在AMD队友技术落后Intel的前提下,想要造核发怒。另辟蹊径,采用将4个独立Die封装在一个封装中的方式,推出了EPYC服务器芯片,既不影响良率,又拥有不错的核心数量。可谓一石二鸟。
以及最近发布的ThreadRipper
不幸的是,连接四个Die的片外总线效率不如片内总线,并且在许多基准测试中都失败了。这说明天下没有免费的午餐。他似乎也忘记了,在2005年的双核口水战中,他曾嘲笑英特尔是“胶水棒”双核。这一次,他的“搭积木”和“拼搏”足以让数据看起来不错。
我们来看看四个Die是如何连接的。让我们看一下双向EPYC 服务器:
请注意,这里的两个通道之间的互连以及每个CPU Package (MCM) 中的四个Zeppelin Die 都是通过Infinity Fabric 连接的。从本质上讲,Package的四个Die与四通道CPU没有什么区别。它是四个NUMA 节点(NUMA 和UEFI)。
英特尔的Packcage内部有一个Die,核心之间有一个环形总线。 Skylake之后,改为Mesh:
Infinity Fabric对应的QPI和UPI仅使用socket互连:
它们的延迟不是同一个数量级。
AMD这样做,除了增加灵活性之外,主要目的就是:省钱!每个AMD Zeppelin Die都比Intel的小,大大提高了良率并节省了生产成本。回望2004年,Intel雄心勃勃,宣布代号Prescott超长流水线的Pentium 4将发布4GHz CPU,但最终结果却因为种种原因止步于3.8GHz。此后主频不进反退。直到代号Haswell的酷睿4代(4790K)才真正达到了4GHz。后继者Broadwell、Skylake、Kabylake 和Coffeelake 没有采取任何增加频率的措施。十几年过去了,CPU主频为什么不能继续提升?发生了什么?我们已经达到频率上限了吗?
从上一篇文章(CPU制造中的事情第二部分:Die尺寸和良率)我们知道,如果我们想要提高CPU的计算性能,我们不能简单地堆叠核心。那么我们是否可以简单地提高CPU频率,让CPU的每个核心都能更快地计算结果呢? CPU制造工艺领先者英特尔为何不再攀登主频巅峰?其实瓶颈主要是散热。让我们仔细看看原因。
CPU为什么会发烫?
从拥有1.4 亿个FET 的Pentium 4 到超过80 亿个FET 的Kabylake,Intel 忠实地按照摩尔定律增加了晶体管数量。很多FET 每次翻转都会消耗能量。 FET的简单原理图如下:
当输入为低电平时,CL 被充电,我们假设一焦耳的电能存储在电容器中。当输入变为高电平时,电能被释放,并释放出焦耳能量。因为CL很小,所以这个a也很小,几乎可以忽略不计。但如果我们以1GHz的频率翻转这个FET,能量消耗是a10^9,这是不容忽视的。再加上CPU中有数十亿个FET,消耗的能量变得相当可观。
能耗与频率的关系
从图中,你或许可以直观地看出,能耗和频率是正相关的。这个理解是正确的。事实上,能量消耗和频率是线性相关的。能耗关系公告为(参考2):
P代表能量消耗。 C可以简单地看成一个常数,由制造工艺等因素决定; V代表电压; f 是频率。理想情况下,频率加倍将使能耗加倍。看起来不是很严重,是吗?但实际情况并非那么简单。
这里我们要介绍一下Gate Delay的概念。简单来说,对构成CPU的FET进行充放电需要一定的时间。这个时间就是门延迟。只有充放电完成后采样才能保证信号完整性。充放电时间与电压负相关,即电压越高,充放电时间越短。还与制造工艺呈正相关,即制造工艺越小,充放电时间越短。让我们去除过程中的干扰因素。当我们继续提高频率f时,经过某个节点后,翻转过快会导致门延迟跟不上,从而影响数字信号的完整性,产生错误。这也是超频在某个阶段会变得不稳定、随机出错的原因。那么该怎么办呢?如果你聪明的话,你可能已经想到了超频中常用的一种方法:加压。顺便说一句,您可以通过增加电压来减少栅极延迟,让系统再次稳定下来。
我们回过头来看看公式。你会发现电压和功耗并不是线性相关,而是正相关!将其乘以f,情况会变得更糟。当我们提高频率时,我们必须同时提高电压,导致P显着增加!我们回想一下初中学过的y=x^3的函数图:
Y在前期缓慢上升后,会在a点开始急剧上升。这a就是转折点。如果你过了,你就再也做不到了。功耗与频率的关系大致相同。让我们看两个实际例子:
i7-2600K频率与功耗的关系
Exynos频率与功耗的关系
从ARM和X86阵营的角度来看,他们的能耗曲线是否类似于幂函数图?
其他不可忽视的因素
现实比这更复杂。实际上,上式中的P只是动态能耗。 CPU整体功耗还包括短路功耗和漏电功耗:
短路功耗是当场效应管翻转时,有很短的一段时间电子直接跑掉。它与电压、频率呈正相关。
漏电功耗是电子穿透MOSFET的漏电,与制造工艺和温度有关。
综合起来,让我们看一个实际的例子:
这里的Transition Power是动态能量消耗。可以看出,随着频率的增加,它急剧上升;短路功耗与频率几乎呈线性关系;静态功耗是指漏电功耗。它也会随着频率的升高而升高,从而导致漏电增加。
这里我们引入热密度的概念,即单位面积散发的热量。从该图中可以看出,随着频率的提高,各种因素的综合叠加导致功耗严重增加,而芯片尺寸不变,因此热密度迅速增加。现有的散热设备无法在短时间内排出这么多的热量,因此会导致死机等现象(CPU风扇停止旋转后会发生什么?为什么CPU烧不坏?)。这就是为什么超频往往需要良好的散热设备(超频步骤一:升级散热系统)。
一个想法
最后开放一个想法:假设没有散热问题,没有门延迟,在完美的世界里,频率有上限吗?这是一个有趣的想法。大家都知道,电信号在电线中传播得非常快,接近光速。我们以光速为例:每秒30 万公里。相信稍微了解一点相对论的人都知道,光速是物理极限。我们不是在这里讨论科幻问题。因为没有门延迟
,电信号以光速传播。光速,这个数字很大,但我们的频率可是以G为单位,就是10^9,也非常大。在1GHz的情况下,电信号只能传播30cm!再远就会有相位差。10GHz的话,才能传播3cm。晶圆大小是300mm,如果我们做出个和它一样大的CPU Die,也许最高频率只有1GHz。而现在CPU的die大小差不多1cm,所以理论上30GHz是极限频率! (这里超级简化很多条件,权作脑洞。一篇从物理极限探究CPU的文章见参考资料5) 结论 在没有强劲散热的情况下超频会减少CPU寿命,经由液氮制冷的加持,CPU的频率在极限玩家的帮助下才能挑战9GHz。这对于我们日常电脑用户来说十分遥远。而且在可以预见的未来,CPU频率因为热密度的关系并不会大幅提高,我们可能永远也看不到10GHz的硅基CPU。也许只有在抛弃硅或者转换到量子计算,CPU频率才会有翻天覆地的变化。 单纯追求高主频会让功耗急剧上升,经济上并不合算,现在CPU厂商早就放弃了单纯追求高主频,转而提高每瓦性能。实际上目前的CoffeeLake 3.8G的CPU相比奔腾4的3.8G,Benchmark跑下来效能提高了十几倍,而功耗反倒下降不少!这全拜改进架构的福。在吸取了基于netburst深度流水来提高主频,却被“誉为”高频低能的奔腾4教训后,这也是Intel等芯片制造商努力的方向。 后记 这篇文章反响很好,我接着会再接再厉,写一些CPU设计中的问题和解决方法。譬如酷睿系列相比奔腾4的netburst做了哪些架构改进,Cache一致性的问题等等,希望大家关注和喜欢! 在看过前两篇文章后,有同学在微信公众号向我提了个很好的问题:“为什么晶圆不是方的?”。是啊,圆形的wafer里面方形的Die,总是不可避免有些空间浪费了: 黑色的区域浪费有点可惜,如果是方的不是正好全部用上吗?对于这个问题,我的回答就是:“因为叫做晶圆不叫做晶方!” 嘻嘻,开个玩笑,不过严肃说起来晶圆并不是完全的圆形,你看到的晶圆是这样的: 为什么我知道的晶圆是这样的? 或是这样的: 为什么晶圆是圆形的? 因为制作工艺决定了它是圆形的。因为提纯过后的高纯度多晶硅是在一个子晶(seed)上旋转生长出来的。多晶硅被融化后放入一个坩埚(Quartz Crucible)中,再将子晶放入坩埚中匀速转动并且向上提拉,则熔融的硅会沿着子晶向长成一个圆柱体的硅锭(ingot)。这种方法就是现在一直在用的CZ法(Czochralski),也叫单晶直拉法。如下图: 然后硅锭在经过金刚线切割变成硅片: 在经过打磨等等处理后就可以进行后续的工序了(CPU制造的那些事之一:i7和i5其实是孪生兄弟!?) 单晶直拉法工艺中的旋转提拉决定了硅锭的圆柱型,从而决定晶圆是圆形的。 为什么后来又不圆了呢? 那为啥后来又不圆了呢?其实这个中间有个过程掠过了,那就是Flat/Notch Grinning。 它在硅锭做出来后就要进行了。在200mm以下的硅锭上是切割一个平角,叫做Flat。在200mm(含)以上硅锭上,为了减少浪费,只裁剪个圆形小口,叫做Notch(参考资料2)。在切片后晶圆就变成了这样: 如果你仔细看我的第一个图,你也会发现它其实是有缺一个小豁口的。 为什么要这样做呢?这不是浪费吗?其实,这个小豁口因为太靠近边缘而且很小,在制作Die时是注定没有用的,这样做可以帮助后续工序确定Wafer摆放位置,为了定位,也标明了单晶生长的晶向。定位设备可以是这样: 这样切割啊,测试啊都比较方便。 结论 严格意义上所有的Wafer都不是圆形的。如果忽略Flat/Notch这些小问题,那它的圆形是工艺决定的。 后记 哈哈,彩蛋来了。其实是有方形的Wafer的: 你们知道它是干什么的吗?为什么可以是方的吗? 有人微信公众号问我,“电路为什么要铺满整个整个晶圆,边角不是没用吗?”。真是位爱思考的好同学,观察的很仔细。是的,一个晶圆周边的Die是不完整的: 注意绿色的Die,都是不完整的。那么是不是我们应该省去这些麻烦,直接做出这样的晶圆呢? 为什么我们看Intel开发布会,公布的晶圆都是这样的呢? Core M Wafer 原因大致有两个方面。 遮光罩Mask 光刻的重要部分遮光罩(mask)本身是方形的,它是由很多方格组成,每个方格叫做一个shot,它是曝光的最小单位。Shot包括一个或多个Die,外加一下外围测试电路。因为shot是方形的,所以每个小格也是方形的,整个mask是他们的集合。如下图: 绿色圆形是晶圆,红色内圆是可用的部分,他们之间是margin。光刻就是用Mask掩盖住需要的部分,用光去除不要的部分。 这些小方块都一样,做出Mark就是小方块的简单的重复,就像复制黏贴。并不浪费时间。而因为shot可能包括多个Die,爆出边缘shot,有可能还有部分Die是完整的。 边缘效应 还有个更重要的原因:边缘效应。如果我们不做周边的电路,会对内圈材料密度产生影响,从而影响完整的Die的良率。 忽然的密度改变会影响良率 不完整的电路可以充当缓冲 另外,小强(奇怪@不出小强同学) 补充说:在芯片制造工艺中,晶圆是不断加厚的,尤其是后段的金属和通孔制作工艺,会用到多次CMP化学机械研磨过程。 假如晶圆边沿没有图形,会造成边缘研磨速率过慢,带来的边沿和中心的高度差,在后续的研磨过程中又会影响相邻的完整芯片。 所以,即便是作为dummy pattern, 边沿的非完整shot 都需要正常曝光。 结论 不做周围的不完整Die并没有省事,反倒因为密度改变而影响内圈Die,得不偿失,在大型的Wafer上几乎没人这么做。 其他 有朋友问为啥Die不做成圆形。圆形在切割和测试时会造成很大麻烦。八角形也不利于切割: 我以前曾在英特尔的CPU封装测试工厂做过质量工程师。 CPU的寿命遵循一个失效率的统计分布曲线,如果X轴是时间,Y轴是失效率,那么这个曲线的形状象一个浴盆,两头高,中间低,事实上,我们也称这个曲线为Bathtub Curve。我们把0~30天内的比较高的失效率称为Infant Mortality(婴儿出生死亡率),最后那段越来越高的失效率是wear out fail rate,就是CPU寿终正寝的失效率。 我们希望用户拿到手里的CPU是处在当中那段失效率最低的情况,所以在封装测试工厂里有一道工序叫做Burn In(老化),把封装好的CPU放进一个大炉子里,加上电,通过高温高电压,几十分钟到几个小时的老化就相当于CPU在正常温度和电压下使用几天甚至几年的的情况。做完Burn In以后做一个测试,把在Burn In过程中失效的CPU淘汰掉,这样就相当于把Infant Mortality的失效淘汰掉了,能通过老化考验的CPU,就是失效率比较低的CPU了。 我们对于浴盆曲线当中那段最低的失效率的持续时间要求通常是7年。 一般来说ic的平均满负荷有效寿命是10万小时。【揭秘CPU老化之谜:具体表现及应对策略】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
我感觉我的电脑最近运行越来越慢了,是不是CPU老化了啊?
有6位网友表示赞同!
我之前一直以为CPU是不会老化的,现在看到这个标题有点慌了。
有19位网友表示赞同!
这篇文章应该把CPU老化的现象和原因都解释清楚吧?
有14位网友表示赞同!
我的电脑配置还可以,但经常会玩游戏的时候闪退,是不是CPU出现了问题?
有7位网友表示赞同!
有没有什么方法可以延缓CPU的老化?
有19位网友表示赞同!
我记得以前听人说使用降频软件可以延长CPU寿命,是真的吗?
有12位网友表示赞同!
学习一下CPU老化的知识,好提高电脑的运作效率。
有13位网友表示赞同!
看到很多朋友用旧电脑很流畅运行游戏,是不是他们懂得如何保养CPU呢?
有13位网友表示赞同!
我还在犹豫要不要给电脑升級CPU,不知道现在的CPU寿命是多久?
有14位网友表示赞同!
老化后的CPU表现会是什么样的?会不会还会影响到其他硬件?
有8位网友表示赞同!
这个标题引起了我的好奇,想去了解一下CPU的寿命问题。
有12位网友表示赞同!
以前我感觉电脑慢就是内存小了,现在知道还有可能是CPU老化的原因了。
有20位网友表示赞同!
不知道有没有什么可以检测CPU老化程度的方法?
有7位网友表示赞同!
期待这篇文章能提供一些实用的维护建议,延长CPU寿命。
有6位网友表示赞同!
CPU老化会导致哪些常见的软件问题?
有8位网友表示赞同!
我比较担心自己对电脑的保养知识有限,会不会导致CPU加速老化?
有7位网友表示赞同!
我想学习如何在日常使用中保护CPU,避免老化。
有17位网友表示赞同!
这篇文章应该能让我对CPU老化的现象和应对方法有更深入的理解。
有6位网友表示赞同!