当今计算中最大的问题之一是“内存墙”,即处理时间与将数据从单独的DRAM内存芯片传送到处理器所花费的时间之间的差。AI 应用的日益普及使该问题更加明显,因为找到面孔,理解语音并推荐消费品的庞大网络很少能容纳在处理器的板载内存中。
在12月举行的IEEE国际电子设备会议(IEDM)上,美国和比利时的独立研究小组认为,一种新型的DRAM可能是解决方案。他们说,这种新型的DRAM由氧化物半导体制成,并内置在处理器上方的各层中,其位长是商用DRAM的数百或数千倍,并且在运行大型神经网络时可以提供巨大的面积和节能效果。
您计算机中的DRAM存储单元分别由单个晶体管和单个电容器制成,即所谓的1T1C设计。为了向该单元写入位,晶体管被打开并且电荷被推入电容器的(1)或从电容器(0)去除。要从中读取,充电是可以提取并测量的(如果有)。该系统超快,便宜并且消耗很少的功率,但是它有一些缺点。首先,读取该位会消耗电容器的电量,因此读取意味着将该位写回到内存中。而且,即使您不读取该位,电荷最终也会通过晶体管从电容器中泄漏出来。因此,所有单元都需要定期刷新以保持数据。在现代DRAM芯片中,此操作每64毫秒完成一次。
将DRAM嵌入处理器芯片是在商业上完成的,但是它有其局限性。Georgia Tech的电气和计算机工程学教授Arijit Raychowdhury说:“单片1T1C设计面临的挑战一直是制造电容器以及制造具有超低漏电流的晶体管的困难”,Arijit Raychowdhury在佐治亚理工学院任教,曾与巴黎圣母大学和罗彻斯特理工学院的研究人员合作开发了新型嵌入式DRAM。根据以往观念在为逻辑电路构建的制造过程中,很难制造出优质的电容器。
相反,新的嵌入式DRAM仅由两个晶体管制成,没有电容器(2T0C)。这之所以可行,是因为晶体管的栅极是自然的(尽管很小)电容器。因此,代表该位的电荷可以存储在此处。该设计具有一些关键优势,特别是对于AI。
Raychowdhury解释说,写和读涉及不同的装置。因此,您可以从2T0C DRAM单元读取数据,而无需破坏数据而不必重写数据。您所要做的就是查看电流是否流过其栅极保持电荷的晶体管。如果有电荷,它将使晶体管导通。电流流动。如果那里没有电荷,则电流会停止。易于阅读对于AI尤为重要,因为每次写一次神经网络都会读取至少三遍。
Raychowdhury说,2T0C的排列方式不适用于硅逻辑晶体管。由于晶体管的栅极电容太低并且通过晶体管的泄漏太高,任何位都会立即流失。因此,研究人员转向由非晶氧化物半导体制成的设备,例如用于控制某些显示器中像素的设备。
这些具有几种令人钦佩的品质。值得注意的是,它们可以驱动大量电流,从而使写入速度更快;而当它们关闭时,它们会泄漏很少的电荷,从而使位寿命更长。美国团队使用钨掺杂的氧化铟掺杂约1%作为其半导体,简称IWO。Raychowdhury说,该器件的导通电流“是氧化物晶体管中报道得最好的一些”。“它为逻辑操作提供了足够的读写速度。同时关断电流真的很小……比硅的最佳电流小两到三个数量级。” 实际上,该团队必须构建该设备的超大型版本,以便完全获得电流泄漏的任何度量。
同样重要的是,可以在(相对)低温下加工此类氧化物。这意味着由它们制成的设备可以构建在处理器芯片上方的互连层中,而不会损坏下面的芯片设备。在此处建立存储单元可为数据提供直接的高带宽路径,使其到达硅片上的处理元件,从而有效地击倒了存储壁。
在对三个常见神经网络的仿真中,该团队将其技术的一,四,八层版本与22纳米1T1C嵌入式DRAM(IBM Power8处理器中使用的技术)进行了比较。由于控制2T0C嵌入式DRAM占用了处理器上的一定数量的逻辑,因此仅使用一层新内存实际上就没有为所有神经网络数据所需的芯片面积提供优势。但是4层2T0C DRAM减少了嵌入式存储器所需的芯片面积约3.5倍,而8层则减少了7.3倍。
同样,当2T0C嵌入式DRAM的一层以上时,其性能优于1T1C嵌入式DRAM。例如,使用一平方毫米的四到八层嵌入式DRAM,ResNet-110神经网络再也不必从芯片外获取数据了。与1T1C设计相比,这可能节省大量时间和精力,而1T1C设计大约需要70%的时间使用片外数据。
在比利时的研究人员IMEC使用铟镓锌氧化物作为半导体公布了一个类似的2T0C嵌入方案在IEDM。Imec的高级科学家Attilio Belmonte指出,IGZO必须在有氧的情况下进行退火,以修复由氧空位引起的材料缺陷。这具有减少IGZO中可有助于电流流动的自由电子数量的作用,但是如果没有它,这些设备将不会像开关那样起作用。
对于这种“氧钝化”的需求,对IGZO DRAM器件的设计具有多种连锁效应-包括所涉及电介质的选择和位置。
Imec开发的优化设备具有将IGZO放置在二氧化硅层上并覆盖氧化铝的功能。这种组合特别有效地控制了将钻头排走的泄漏。2T0C存储单元的平均保留时间为200秒,其中25%的单元将其位保持超过400秒,比普通DRAM单元长数千倍。他对IEDM的工程师说,在后续研究中,Imec团队希望使用IGZO的不同阶段将保留时间延长到100个小时以上。
这种保留时间使设备进入了非易失性存储器的领域,例如电阻式RAM和磁性RAM。许多小组致力于使用嵌入式RRAM和MRAM来加速AI。但是Raychowdhury说2T0C嵌入式DRAM比它们更具优势。这两个需要大量的电流才能写入,目前,电流必须来自处理器硅片中的晶体管,因此节省的空间更少。更糟糕的是,它们切换的速度肯定比DRAM慢。他说:“至少在写过程中,任何基于电荷的事物通常都会更快。” 证明要在处理器上构建嵌入式2T0C DRAM完整阵列的速度要快得多的证明。他说,但是那即将到来。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。