揭秘CPU老化之谜：具体表现及应对策略

大家好，今天小编来为大家解答揭秘CPU老化之谜：具体表现及应对策略这个问题，很多人还不知道，现在让我们一起来看看吧！

任何拥有电子学学士学位的人都会知道MOSFET的原理是栅极依靠静电势来控制下方导电沟道的深度。如果电位高，则形成深沟道时电流会较大。如果电势低，通道就会消失并且不再导电。如果再想深一点就会知道，导电栅极下面的沟道也是导电的，所以中间必须有绝缘介质将它们隔开，否则就成了连接线而不是晶体管了。如果你再进一步想一想，你就会知道，这种绝缘介质最简单的方法就是将硅氧化成二氧化硅。外人通常没有想到的是，仅二氧化硅是不够的。在工程上，二氧化硅与衬底硅之间的附着力很差，必须添加Si-H键来束缚二氧化硅层。所以介电层和硅之间实际上有一层不是纯SiO2而是SiOH。这就是问题出现的地方。超大规模集成电路能级的微观尺度使得量子效应无法忽视。在通道中流动的电子会因量子能量波动而随机获得暂时的能量，变成热电子，然后跳跃到未知的地方。这称为隧道效应。我找到了详细的解释（隧道电流_百度百科）。对物理感兴趣的同学可以看一下。不感兴趣的同学只要想一下MOSFET关断状态下的漏电流从何而来，为什么是功率指数函数就可以了。这还没有结束。如前所述，存在Si-H键。这种钥匙的特点是容易损坏，又容易恢复。一旦电子发生隧道效应，键就有可能被破坏。此时会产生断裂的键和游离的氢原子。破坏钥匙会增加阈值电压，这意味着原来在0.3V打开的门现在需要0.35V才能打开。这意味着当同样施加1伏电压时，原来的导通电流相当于0.7V，现在相当于0.65V。这就是为什么断裂的键合会减慢芯片的速度，因为导通电流很低并且电压提升很慢。如果电压上升慢，开关门就会慢，最后你的逻辑就会慢。为什么随着时间的推移它会变慢？由于键断裂是随机发生的，因此需要时间来积累。另外，请记住，我们之前提到Si-H键可以恢复，因此基于断裂键的老化效应具有恢复模式。对于NBTI，如果对其施加反向电压，它将进入恢复模式；对于HCI，如果不移动它，它将进入恢复模式。但这些都不太可能在很长一段时间内发生，所以一般来说，芯片会逐渐老化。为什么温度很重要？温度代表宏观物体微观粒子的平均动能。当它变热时，会有更多的热电子，断键的机会就会更大。一般民用电子产品可以使用十几年没有太大问题。汽车电子芯片十年内就差不多准备好了。有开美国车的朋友可以看一下。新车一般都很时尚，十年后基本上就像圣诞树一样，开到哪儿都亮起来。为什么压力会产生影响？对于同一晶体管，电源电压越高，失调电压越高。失调电压越高，氢原子解离得越快，从而抑制自发恢复效应并导致更快的自然老化。为什么超频会有影响？因为超频本质上是利用了芯片厂商所保留的余地，他们无法完全掌握这个过程。芯片制造出来之后会有一个速度测试，然后芯片制造商会考虑到典型的使用条件，预留一定的余量，不是说太满，以免芯片老化后达不到。例如，300ps的芯片如果标记为3GHz，即使老化10%仍然可以达到；但如果把时钟改成3.3GHz的话，稍微老化就达不到了。从用户的角度来看，它只是不亮。这就是它老化的原因。最后说一下前面提到的TDDB。上面只是说Si-H键会断裂，但实际上Si-O键会断裂。断裂后会形成导电点。使用过程中出现随机断裂，经过一定时间后，断裂的Si-O键会形成从沟道到栅极的导电旁路，管子就会击穿。

这就是TDDB。过去为了速度，二氧化硅层被切割得越来越薄，这个问题非常突出。然而，随着高金属栅（HKMG）技术的发展，介质层无法再减薄，这个问题可能没有想象中的那么严重。延伸阅读：负偏压温度不稳定性热载流子注入在线课件EE695A:纳米电子晶体管的可靠性物理，普渡大学M. Alam教授。我强烈推荐这个。阿拉姆教授不知疲倦地工作，把所有幻灯片都放好了，不用担心被偷。他还提供了配音。尤为难得的是，他将NBTI研究的历史带入教学中。很有故事感。如果您有很强的数学背景，您可能想尝试一下。看。

上图右上角的黑白图取自Alam教授的课件。非常感谢。

老化也称为磨损。不影响计算速度，但一定时间后会产生错误。与超频相关的高温和电压将加速这一老化过程。因为涡轮增压技术超过TDP的时间不会太长，一般来说影响不大。我们先来看看CPU的寿命是如何确定的。

浴缸曲线模型

与大多数半导体器件一样，CPU 的可靠性可以通过其故障率来衡量。如果我们以时间为x轴，y轴就是故障率。 CPU故障率曲线如下：

故障率曲线

蓝色曲线称为Infant Mortality，这表明CPU在刚使用时的故障率非常高，但随着产品工作时间的增加，故障率迅速下降。其原因是由于制造和原材料的缺陷造成的。

红色直线称为随机故障，是由质量缺陷、材料弱点、环境、使用不当等因素造成的。它是一个常量，并且在整个CPU的生命周期中都是一个常量。

绿色曲线为磨损期，前期极低，后期出现错误后大幅增加。这是老化失效的原因。

综合以上3条曲线，综合故障率是一条紫色曲线，两端高，中间低。它的形状像一个浴缸。我们称之为浴缸曲线模型。 CPU在生命周期中的这一特点体现在初期的故障率较高。如果没有问题的话，可以长期稳定工作。最终开始老化失效，故障率急剧上升。

老化

很多人看到这里都会感到惊讶：“什么，CPU早期故障率这么高？我刚买的CPU是不是要坏了？” CPU制造商不希望出现大规模退货的情况。毕竟，所有CPU都至少有3年保修。在封装和测试期间，CPU制造商会将CPU放入高温环境中进行浸浴（均热）并施加高压。这样的几个小时就像几个星期一样。把CPU拿出来测试，剔除掉不好的，好的就可以进入浴盆曲线底部的稳定期了，然后才能出货。这个过程称为老化。如图所示：

经过这样的选择后，CPU直接跳过早期过期期，进入稳定期。只有我们的CPU 享有3 年保修。

3年后，CPU的速度会变慢吗？

就像超市里的牛奶保质期是3天一样，实际上大多数牛奶在5天后仍然可以饮用。 3 年保修只是最低值。事实上，大多数CPU都可以使用7年以上，不会出现任何问题。那么CPU在多年后进入磨损期后会发生什么情况呢？首先，CPU的速度是恒定的，它是通过基频乘以一个比率（Ratio）来计算的。目前Intel CPU的基频一般为100MHz。我们使用的3G CPU的Ratio为30，正好是3GHz。整个生命周期中基础频率和Ratio不变，因此CPU运算速度不变。磨损的后果是错误而不是频率降低，并且许多类型的错误都会被CPU的错误检测发现并报告或纠正。详细内容请参考本专栏的另一篇文章。如果计算机硬件出现问题会发生什么？如果发现错误，CPU就开始进入过期期，以后错误会越来越多。

CPU为什么会出现故障？

其实造成CPU故障的原因有很多，我们以后会专门写一篇文章来介绍。它们的统一特点是高温、高电压会加速失效。如图所示：

故障与电压之间的关系（来源anandtech）

粉色曲线是高温曲线，黄色是常温曲线，蓝色是配备了良好的散热系统。可见高温、高电压严重影响CPU的故障率。这就是为什么超频后不再保修的原因。

综上所述

CPU长时间使用后不会变慢。如果我们把电脑和手机的速度变慢归咎于CPU，那就真的错怪了。那么为什么电脑、手机用得越多，速度就越慢呢？原因有很多。软件原因是安装的软件越来越多等；硬件原因可能是风扇脏了，转速慢，导致温度过高，频率下降（CPU风扇停止转动后会发生什么？为什么CPU烧不坏？）；或者SSD空间已满/Trim没有启动（杂项闪存额外：为什么手机越来越卡，闪存写入放大），导致速度大幅下降等。

最后，我想强调的是，CPU 的磨损是随着时间的推移而发生的。如果你的电脑闲置几年，CPU不会老化，但SSD的内容会丢失（闪存额外：我们的数据放在固态硬盘上安全吗？）

高温会引起芯片的电子迁移，加速芯片设备的老化。 “电子迁移”是20世纪50年代微电子领域发现的一种从属现象。它是指由电子流动引起的金属原子的运动。由于此时流动的“物体”中已经含有金属原子，所以有人也称其为“金属迁移”。在电流密度非常高的导体上，电子的流动将产生相当大的动量。当这种动量作用在金属原子上时，可能会导致一些金属原子脱离金属表面并四处流动。结果，原本光滑的金属丝表面会变得凹凸不平，造成永久性损坏。这种损害是一个逐渐积累的过程。当这种“凹凸”达到一定程度时，就会造成CPU内部线路开路、短路，最终导致CPU报废。温度越高，电子流的影响越大，完全破坏CPU中一条路径所需的时间就越少，即CPU的寿命就越短。这就是高温会缩短CPU寿命的本质原因。

由于市场和政策原因，某些功能和个别SKU针对某些市场或国家被关闭或单独开放，这超出了本文的范围。本文仅限于作者了解的技术原因和背后的知识。

CPU的生产制造看起来很神秘，技术含量很高。很多对计算机稍有了解的朋友都会知道，CPU中最重要的就是晶体管。要提高CPU的速度，最重要的是提高主频并插入更多的晶体管。因为CPU太小太精密，并且包含相当数量的晶体管，所以绝对不可能用手工来做，只能通过光刻来加工。这就是CPU中可以有这么多晶体管的原因。

整个过程非常复杂和繁琐。幸运的是，Intel很早就发布了一段有趣的视频，生动地展示了整个过程。我在优酷上找到了链接，你可以看一下：

从沙子到硅（由英特尔CPU制造）

优酷视频

整个过程充满了科技感。让我们来揭秘一下为什么i7、i5和部分i3是同一个娘胎里生出来的。为了让读者明白我在说什么，我们首先回顾一下整个CPU的制造过程。由此我们可以看出，同品类的i7、i5以及部分i3都来自同一个晶圆线，最终在内测后期出现了分歧。

CPU制造流程

沙

如果问CPU的原材料是什么，大家很容易给出答案——硅。这是事实，但是硅从哪里来呢？其实它是最不起眼的沙子。然而，你不能只抓一把沙子来制造原料。您必须仔细选择并提取最纯净的硅原料。

2. 熔化和纯化

原材料在高温下熔化。整个硅原料必须是高纯度的，即单晶硅。然后通过旋转拉伸将硅原料从高温容器中取出。此时，圆柱形硅锭就产生了：

得到切片后的元晶圆：

注意，这里的硅锭尺寸各不相同，常见的有200mm、300mm到450mm。在保持硅锭的各种特性的同时增加横截面积是相当困难的。我们将在后续文章中介绍截面尺寸对成本的影响。

3、光刻胶、溶解光刻胶、蚀刻、离子注入、电镀、铜层生长

介绍这些步骤的文章很多，我就不赘述了。当所有这些完成后，我们就得到了成品晶圆Wafer。接下来就是我们介绍的重点了。

4. 晶圆测试

使用探针进行基于电气特性的测试。

5.切片

使用精确控制的切片机来切割每个网格：

终于拿到CPU核心了：死

6. 包装

至此所有步骤都一样，白牌CPU就制作完成了：

值得注意的是，这些白牌CPU都经过了基础测试，工作正常，但这并不意味着它们就是合格产品。 i7、i5和部分i3的划分也发生在后来。

7.分箱

通过测试设备，就是这个小白盒子：

不管是骡子还是马，都到了该出去遛遛的时候了。这一步是封装测试过程的最后一步，通过测量电压、频率、散热、性能、缓存等对CPU进行分类，最糟糕的当然是报废。其次，SKU很多，远远不止i3、i5、i7这样的。例如，i5分为许多不同的类别。你可以看看Intel的CPU。 i5的型号也有很多，对应不同的细分市场。

下一步排序：

然后就可以上市了！

需要分箱的原因

需要指出的是，英特尔所做的并不是营销策略，而是生产过程的结果。步骤2) 和3) 中晶圆会出现很多缺陷。见下图：

大圆圈是晶圆，小方块是CPU的管芯。我们可以看到，缺陷就像散落的芝麻，斑点状，而且越靠近边角，越容易出现。小格子很多（量产后就不会那么多了）。出品率高，品质控制好，但芝麻较少。

缺陷并不可怕，只要有办法控制就好。 CPU 内置有许多门。如果在封装和测试过程中发现问题，出现错误的组件将被关闭。如果出现核心错误，核心将被关闭。如果存在缓存错误，部分缓存将被关闭。如果温度上升很快，如果出现错误，就会锁定低频等等。这就是为什么其中有i5、i7和小sku的原因。

接下来，我们举个例子。下面是4代酷睿（Haswell）的die:

我们可以看到它主要分为几个部分：GPU、4核、System Agent（无核，类似于北桥）、缓存和内存控制器等小组件。比如我们发现3号和4号核心有问题，可以直接关闭3号和4号。如图：

这样就得到了双核裸片，接下来就可以测试速度、TDP等了。经过多次测试和筛选后，分箱完成。

综上所述

同代同品类（仅针对同一细分市场）的i7、i5以及部分i3来自同一条晶圆生产线，其成本是相同的。不生产所有i7并不是Intel故意的阴谋，而是生产过程的结果。目前的做法实际上是一个双赢的解决方案：消费者和生产者都受益。消费者省钱，生产者减少浪费。如果全部生产i7产品，价格将会天价，良率也会严重下降。

由于市场和政策原因，某些功能和个别SKU针对某些市场或国家被关闭或单独开放，这超出了本文的范围。本文的讨论仅限于技术原因及其背后的知识。

其他

最后，我们来澄清一些常见的误解：

i7 不与Xeon 共享晶圆。只能说至强E3/E5/E7的核心部分与核心系列设计几乎相同，但非核心部分却截然不同，不可能使用相同的晶圆。所以i7/i5/i3不是通过Xeon屏蔽某些功能来获得的。同理，Atom系列也不是Core系列的阉割版。

即使都是i7，也不一定是同一个晶圆，芯片尺寸也可能不同。不同部分的模具内部结构是不同的。比如包装中不包含虹膜显卡等，这不是binning可以解决的问题。

i3部分是i5的缩小版，i3部分（主要部分）是Pentium和Celeron的精选版本。关键是QDF#表明了它的起源。

Pentium和Celeron不一定是i3的瘦身版，有些Pentium和Celeron是ATOM产品线的高端版本。

E7 和E5 具有不同的设计和不同的芯片尺寸，因此本文不适用。但E5和E7的SKU就属于这一类

这种做法实际上降低了CPU的整体价格，而不是让大家赔钱。

不仅Intel这样做，AMD也这样做。不仅CPU能做到这一点，GPU也能做到这一点。这是芯片制造商的普遍做法。

CPU核心技术正处于第二、第三阶段的设计和生产。封测阶段虽然有技术含量，但不是核心。中国有封装和测试工厂。

不要以为买了i3质量就不好。保修期内质量有保证，没见过CPU磨损的。 CPU 通常已经过时。

从单位量产出来看，i3性价比最高，i5适中，i7更适合计算密集型用户。

一般来说，打开盖子看骰子的大小就可以判断是否是兄弟。但打开盖子会使保修失效，而且大多数都含有焊料。小心打开盖子拿“奖品”，请勿模仿！请勿模仿！请勿模仿！

经常有朋友问我：“Intel为什么不生产100核的CPU？” “AMD单核打不过英特尔，那么英特尔为什么不生产巨无霸来与英特尔竞争呢？” “质量不够，数量足够”似乎是个好主意。我突然觉得摩尔定律很有前途，我们的相关产业还能再繁荣几年。

幻想是美好的，现实是残酷的。在CPU工艺不变的情况下，堆叠核心必然会增加CPU核心Die的尺寸，这会对产品良率产生很大影响。产品的良率影响着产品的价格，没有人愿意看到自己的钱包缩水。我们来看看Die 尺寸对良率的影响。

模具尺寸和产量（yield）

在上一篇文章中（关于CPU制造的那些事：i7和i5其实是孪生兄弟！），我们介绍了CPU的制造工艺，也顺便提到了Wafer。我们都知道CPU的制造工艺肯定会使用晶圆晶圆。每个CPU核心Die都是从完整的Wafer上切下来的：

CPU 成本的一个重要考虑因素是每个晶圆可以制造多少个Die 以及如何最大限度地减少浪费。我们以目前主流的300mm晶圆为例。首先我们假设我们的晶圆是出自上帝之手，没有任何缺陷。由于Die一般为长方形或正方形，因此浪费了圆形晶圆边缘，如下图：

从图中我们可以看到，随着Die的缩小，浪费的比例也从36%缩小到12.6%。基于极限知识，我们知道如果Die尺寸足够小，理论上我们可以100%使用所有Wafer尺寸。由此我们可以看出，Die越小，浪费就越小，从而降低CPU价格，这对于CPU生产者和消费者来说都是好事。

回顾过去，晶圆制造过程中不可避免地会出现缺陷。这些缺陷就像芝麻一样，分布在整个晶圆上：

如果考虑缺陷，Die的尺寸会严重影响良率：

您可以点击上面的图片（图片更大）。不清晰的红点是晶圆缺陷。当Die较大时，很大概率会在其范围内出现缺陷，只要有缺陷，Die就报废（简化处理）；当Die比较小时，其含有缺陷的可能性就大大降低。如图所示，随着模具减少，良率从最初的35.7%提高到95.2%！我们举一个极端的例子。整个晶圆只有一颗晶粒，因此良率只有0%。每一件生产出来的都将被报废。谁会做这种蠢事！

工艺、芯片尺寸和产量

22nm-14nm-10nm，每前进一步都消耗大量投资，芯片厂商还是乐在其中。很大的原因是工艺改进了，管芯变得更小了（或者可以将更多的晶体管封装成相同的尺寸），良率提高了，就省钱了。改进制造工艺还可以带来其他好处，例如更省电、更好的性能等。

但更好的制造工艺通常最初会使晶圆缺陷更有可能导致严重问题，从而降低产量。频率可能无法上升，必须分档到低频。同时，漏电流的增加会增加待机功耗，这就是为什么最初的14nm CPU比22nm CPU的待机功耗更高。

综上所述

100 核的CPU 无法工作，至少现在还不能。据我所知，Die尺寸最大的是Intel的Knight系列和N人工智能板，价格非常昂贵。他们之所以能做这么多核心，是因为每个核心都很简单，占用面积也很小，组合起来的die面积也在可控范围内。

也有同学好奇为什么不使用更大的晶圆呢？那将是我们的下一篇文章。

补充

在AMD队友技术落后Intel的前提下，想要造核发怒。另辟蹊径，采用将4个独立Die封装在一个封装中的方式，推出了EPYC服务器芯片，既不影响良率，又拥有不错的核心数量。可谓一石二鸟。

以及最近发布的ThreadRipper

不幸的是，连接四个Die的片外总线效率不如片内总线，并且在许多基准测试中都失败了。这说明天下没有免费的午餐。他似乎也忘记了，在2005年的双核口水战中，他曾嘲笑英特尔是“胶水棒”双核。这一次，他的“搭积木”和“拼搏”足以让数据看起来不错。

我们来看看四个Die是如何连接的。让我们看一下双向EPYC 服务器：

请注意，这里的两个通道之间的互连以及每个CPU Package (MCM) 中的四个Zeppelin Die 都是通过Infinity Fabric 连接的。从本质上讲，Package的四个Die与四通道CPU没有什么区别。它是四个NUMA 节点（NUMA 和UEFI）。

英特尔的Packcage内部有一个Die，核心之间有一个环形总线。 Skylake之后，改为Mesh:

Infinity Fabric对应的QPI和UPI仅使用socket互连：

它们的延迟不是同一个数量级。

AMD这样做，除了增加灵活性之外，主要目的就是：省钱！每个AMD Zeppelin Die都比Intel的小，大大提高了良率并节省了生产成本。回望2004年，Intel雄心勃勃，宣布代号Prescott超长流水线的Pentium 4将发布4GHz CPU，但最终结果却因为种种原因止步于3.8GHz。此后主频不进反退。直到代号Haswell的酷睿4代（4790K）才真正达到了4GHz。后继者Broadwell、Skylake、Kabylake 和Coffeelake 没有采取任何增加频率的措施。十几年过去了，CPU主频为什么不能继续提升？发生了什么？我们已经达到频率上限了吗？

从上一篇文章（CPU制造中的事情第二部分：Die尺寸和良率）我们知道，如果我们想要提高CPU的计算性能，我们不能简单地堆叠核心。那么我们是否可以简单地提高CPU频率，让CPU的每个核心都能更快地计算结果呢？ CPU制造工艺领先者英特尔为何不再攀登主频巅峰？其实瓶颈主要是散热。让我们仔细看看原因。

CPU为什么会发烫？

从拥有1.4 亿个FET 的Pentium 4 到超过80 亿个FET 的Kabylake，Intel 忠实地按照摩尔定律增加了晶体管数量。很多FET 每次翻转都会消耗能量。 FET的简单原理图如下：

当输入为低电平时，CL 被充电，我们假设一焦耳的电能存储在电容器中。当输入变为高电平时，电能被释放，并释放出焦耳能量。因为CL很小，所以这个a也很小，几乎可以忽略不计。但如果我们以1GHz的频率翻转这个FET，能量消耗是a10^9，这是不容忽视的。再加上CPU中有数十亿个FET，消耗的能量变得相当可观。

能耗与频率的关系

从图中，你或许可以直观地看出，能耗和频率是正相关的。这个理解是正确的。事实上，能量消耗和频率是线性相关的。能耗关系公告为（参考2）：

P代表能量消耗。 C可以简单地看成一个常数，由制造工艺等因素决定； V代表电压； f 是频率。理想情况下，频率加倍将使能耗加倍。看起来不是很严重，是吗？但实际情况并非那么简单。

这里我们要介绍一下Gate Delay的概念。简单来说，对构成CPU的FET进行充放电需要一定的时间。这个时间就是门延迟。只有充放电完成后采样才能保证信号完整性。充放电时间与电压负相关，即电压越高，充放电时间越短。还与制造工艺呈正相关，即制造工艺越小，充放电时间越短。让我们去除过程中的干扰因素。当我们继续提高频率f时，经过某个节点后，翻转过快会导致门延迟跟不上，从而影响数字信号的完整性，产生错误。这也是超频在某个阶段会变得不稳定、随机出错的原因。那么该怎么办呢？如果你聪明的话，你可能已经想到了超频中常用的一种方法：加压。顺便说一句，您可以通过增加电压来减少栅极延迟，让系统再次稳定下来。

我们回过头来看看公式。你会发现电压和功耗并不是线性相关，而是正相关！将其乘以f，情况会变得更糟。当我们提高频率时，我们必须同时提高电压，导致P显着增加！我们回想一下初中学过的y=x^3的函数图：

Y在前期缓慢上升后，会在a点开始急剧上升。这a就是转折点。如果你过了，你就再也做不到了。功耗与频率的关系大致相同。让我们看两个实际例子：

i7-2600K频率与功耗的关系

Exynos频率与功耗的关系

从ARM和X86阵营的角度来看，他们的能耗曲线是否类似于幂函数图？

其他不可忽视的因素

现实比这更复杂。实际上，上式中的P只是动态能耗。 CPU整体功耗还包括短路功耗和漏电功耗：

短路功耗是当场效应管翻转时，有很短的一段时间电子直接跑掉。它与电压、频率呈正相关。

漏电功耗是电子穿透MOSFET的漏电，与制造工艺和温度有关。

综合起来，让我们看一个实际的例子：

这里的Transition Power是动态能量消耗。可以看出，随着频率的增加，它急剧上升；短路功耗与频率几乎呈线性关系；静态功耗是指漏电功耗。它也会随着频率的升高而升高，从而导致漏电增加。

这里我们引入热密度的概念，即单位面积散发的热量。从该图中可以看出，随着频率的提高，各种因素的综合叠加导致功耗严重增加，而芯片尺寸不变，因此热密度迅速增加。现有的散热设备无法在短时间内排出这么多的热量，因此会导致死机等现象（CPU风扇停止旋转后会发生什么？为什么CPU烧不坏？）。这就是为什么超频往往需要良好的散热设备（超频步骤一：升级散热系统）。

一个想法

最后开放一个想法：假设没有散热问题，没有门延迟，在完美的世界里，频率有上限吗？这是一个有趣的想法。大家都知道，电信号在电线中传播得非常快，接近光速。我们以光速为例：每秒30 万公里。相信稍微了解一点相对论的人都知道，光速是物理极限。我们不是在这里讨论科幻问题。因为没有门延迟

，电信号以光速传播。光速，这个数字很大，但我们的频率可是以G为单位，就是10^9，也非常大。在1GHz的情况下，电信号只能传播30cm！再远就会有相位差。10GHz的话，才能传播3cm。晶圆大小是300mm，如果我们做出个和它一样大的CPU Die，也许最高频率只有1GHz。而现在CPU的die大小差不多1cm，所以理论上30GHz是极限频率！（这里超级简化很多条件，权作脑洞。一篇从物理极限探究CPU的文章见参考资料5）结论在没有强劲散热的情况下超频会减少CPU寿命，经由液氮制冷的加持，CPU的频率在极限玩家的帮助下才能挑战9GHz。这对于我们日常电脑用户来说十分遥远。而且在可以预见的未来，CPU频率因为热密度的关系并不会大幅提高，我们可能永远也看不到10GHz的硅基CPU。也许只有在抛弃硅或者转换到量子计算，CPU频率才会有翻天覆地的变化。单纯追求高主频会让功耗急剧上升，经济上并不合算，现在CPU厂商早就放弃了单纯追求高主频，转而提高每瓦性能。实际上目前的CoffeeLake 3.8G的CPU相比奔腾4的3.8G，Benchmark跑下来效能提高了十几倍，而功耗反倒下降不少！这全拜改进架构的福。在吸取了基于netburst深度流水来提高主频，却被“誉为”高频低能的奔腾4教训后，这也是Intel等芯片制造商努力的方向。后记这篇文章反响很好，我接着会再接再厉，写一些CPU设计中的问题和解决方法。譬如酷睿系列相比奔腾4的netburst做了哪些架构改进，Cache一致性的问题等等，希望大家关注和喜欢！在看过前两篇文章后，有同学在微信公众号向我提了个很好的问题：“为什么晶圆不是方的？”。是啊，圆形的wafer里面方形的Die，总是不可避免有些空间浪费了：黑色的区域浪费有点可惜，如果是方的不是正好全部用上吗？对于这个问题，我的回答就是：“因为叫做晶圆不叫做晶方！” 嘻嘻，开个玩笑，不过严肃说起来晶圆并不是完全的圆形，你看到的晶圆是这样的：为什么我知道的晶圆是这样的？或是这样的：为什么晶圆是圆形的？因为制作工艺决定了它是圆形的。因为提纯过后的高纯度多晶硅是在一个子晶(seed)上旋转生长出来的。多晶硅被融化后放入一个坩埚(Quartz Crucible)中，再将子晶放入坩埚中匀速转动并且向上提拉，则熔融的硅会沿着子晶向长成一个圆柱体的硅锭(ingot)。这种方法就是现在一直在用的CZ法(Czochralski)，也叫单晶直拉法。如下图：

然后硅锭在经过金刚线切割变成硅片：在经过打磨等等处理后就可以进行后续的工序了（CPU制造的那些事之一：i7和i5其实是孪生兄弟！？）单晶直拉法工艺中的旋转提拉决定了硅锭的圆柱型，从而决定晶圆是圆形的。为什么后来又不圆了呢？那为啥后来又不圆了呢？其实这个中间有个过程掠过了，那就是Flat/Notch Grinning。它在硅锭做出来后就要进行了。在200mm以下的硅锭上是切割一个平角，叫做Flat。在200mm（含）以上硅锭上，为了减少浪费，只裁剪个圆形小口，叫做Notch（参考资料2）。在切片后晶圆就变成了这样：如果你仔细看我的第一个图，你也会发现它其实是有缺一个小豁口的。为什么要这样做呢？这不是浪费吗？其实，这个小豁口因为太靠近边缘而且很小，在制作Die时是注定没有用的，这样做可以帮助后续工序确定Wafer摆放位置，为了定位，也标明了单晶生长的晶向。定位设备可以是这样：这样切割啊，测试啊都比较方便。结论严格意义上所有的Wafer都不是圆形的。如果忽略Flat/Notch这些小问题，那它的圆形是工艺决定的。后记哈哈，彩蛋来了。其实是有方形的Wafer的：你们知道它是干什么的吗？为什么可以是方的吗？有人微信公众号问我，“电路为什么要铺满整个整个晶圆，边角不是没用吗？”。真是位爱思考的好同学，观察的很仔细。是的，一个晶圆周边的Die是不完整的：注意绿色的Die,都是不完整的。那么是不是我们应该省去这些麻烦，直接做出这样的晶圆呢？为什么我们看Intel开发布会，公布的晶圆都是这样的呢？ Core M Wafer 原因大致有两个方面。遮光罩Mask 光刻的重要部分遮光罩（mask）本身是方形的，它是由很多方格组成，每个方格叫做一个shot，它是曝光的最小单位。Shot包括一个或多个Die，外加一下外围测试电路。因为shot是方形的，所以每个小格也是方形的，整个mask是他们的集合。如下图：绿色圆形是晶圆，红色内圆是可用的部分，他们之间是margin。光刻就是用Mask掩盖住需要的部分，用光去除不要的部分。这些小方块都一样，做出Mark就是小方块的简单的重复，就像复制黏贴。并不浪费时间。而因为shot可能包括多个Die，爆出边缘shot，有可能还有部分Die是完整的。边缘效应还有个更重要的原因：边缘效应。如果我们不做周边的电路，会对内圈材料密度产生影响，从而影响完整的Die的良率。忽然的密度改变会影响良率不完整的电路可以充当缓冲另外，小强（奇怪@不出小强同学）补充说：在芯片制造工艺中，晶圆是不断加厚的，尤其是后段的金属和通孔制作工艺，会用到多次CMP化学机械研磨过程。假如晶圆边沿没有图形，会造成边缘研磨速率过慢，带来的边沿和中心的高度差，在后续的研磨过程中又会影响相邻的完整芯片。所以，即便是作为dummy pattern, 边沿的非完整shot 都需要正常曝光。结论不做周围的不完整Die并没有省事，反倒因为密度改变而影响内圈Die，得不偿失，在大型的Wafer上几乎没人这么做。其他有朋友问为啥Die不做成圆形。圆形在切割和测试时会造成很大麻烦。八角形也不利于切割：我以前曾在英特尔的CPU封装测试工厂做过质量工程师。 CPU的寿命遵循一个失效率的统计分布曲线，如果X轴是时间，Y轴是失效率，那么这个曲线的形状象一个浴盆，两头高，中间低，事实上，我们也称这个曲线为Bathtub Curve。我们把0～30天内的比较高的失效率称为Infant Mortality（婴儿出生死亡率），最后那段越来越高的失效率是wear out fail rate，就是CPU寿终正寝的失效率。我们希望用户拿到手里的CPU是处在当中那段失效率最低的情况，所以在封装测试工厂里有一道工序叫做Burn In（老化），把封装好的CPU放进一个大炉子里，加上电，通过高温高电压，几十分钟到几个小时的老化就相当于CPU在正常温度和电压下使用几天甚至几年的的情况。做完Burn In以后做一个测试，把在Burn In过程中失效的CPU淘汰掉，这样就相当于把Infant Mortality的失效淘汰掉了，能通过老化考验的CPU，就是失效率比较低的CPU了。我们对于浴盆曲线当中那段最低的失效率的持续时间要求通常是7年。一般来说ic的平均满负荷有效寿命是10万小时。