SRAM,再续生机

本文来自格隆汇专栏:半导体行业观察,作者:杜芹DQ

巨头们各出奇招

过去几年,先进制程工艺的玩家越来越频繁地遇到同一个问题:逻辑晶体管还在继续缩小,但SRAM跟不上了。

这一矛盾早在台积电3nm节点上就已经暴露出来。SemiWiki援引IEDM资料称,台积电N3的高密度SRAM位单元约为0.0199平方微米,而N3E披露的高密度SRAM位单元约为0.021平方微米;后者不仅没有继续缩小,甚至与N5时代约0.021平方微米的水平接近。

台积电SRAM单元尺寸的发展

因此,过去几年行业中“SRAM缩放已经走到尽头”的讨论越来越多。SemiEngineering在2024年的一篇分析中指出,SRAM难以继续随先进节点缩放,已经对功耗和性能目标构成挑战;但与此同时,SRAM又是AI应用中最关键的片上工作存储之一。该文还援引Flex Logix CEO Geoffrey Tate的说法称,先进节点客户普遍抱怨逻辑比SRAM缩得更快;如果把缓存放到片外,性能会“断崖式下降”。

SRAM不是一个可以被轻易移出芯片的模块。在《SRAM,取代HBM?》一文中我们就探讨了SRAM的重要性。它之所以重要,恰恰在于足够靠近计算单元,能够提供低延迟、高带宽、可预测的数据访问。一旦把缓存、缓冲区或片上暂存存储放到片外,即便片外有HBM、CXL或其他高带宽方案,芯片仍然会遭遇延迟、功耗、调度复杂度和系统成本的多重惩罚。

然而,6月25日,IBM给这个看似悲观的问题提供了一个新的答案。

IBM发布了0.7nm级的“纳米堆叠”(Nanostack)晶体管架构。按照IBM官方表述,这是业界首个已知的基于纳米片的三维晶体管设计,可在指甲大小的芯片面积内容纳近1000亿个晶体管,密度几乎是IBM于2021年发布的2nm芯片的两倍,并有望相较IBM 2nm节点实现最高50%的性能提升,或70%的能效改善。

但这款晶体管真正值得关注的,不仅仅是0.7nm这个标签,而是IBM在同一发布中提到的另一项指标:SRAM缩放。

IBM称,其研究人员在VLSI 2026上发表的新研究显示,Nanostack架构可带来40%的SRAM缩放。更准确地说,这不是“SRAM容量降低40%”,而是SRAM单元高度或SRAM面积维度的缩小:同样面积下可以放入更多SRAM,或者同样SRAM容量可以占用更小芯片面积。IBM官方发布页也列出相关VLSI论文,题为《交错沟道纳米堆叠SRAM位单元的面积与性能研究》(Area and Performance of Staggered-Channel Nanostack SRAM Bitcells)。

SRAM是否还能继续缩?也引发业界的关注。


SRAM危机,在AI时代更凸显


SRAM缩放放缓之所以在今天变得更加突出,是因为AI芯片的核心瓶颈已经不只是算得够不够快,而是数据能不能足够快、足够近、足够便宜地送到计算单元旁边。

大模型训练和推理都高度受限于数据搬运。Transformer模型中的权重、激活值、中间结果、注意力计算,以及推理阶段越来越重要的KV缓存,都需要在不同存储层级之间频繁移动。即便算力继续提升,如果这些数据无法高效留在计算附近,芯片就会被HBM带宽、片间通信、片上互连和存储层级拖住。

过去几年,AI芯片竞争表面上看是张量计算单元、FP8、FP4、HBM容量、先进封装和互连带宽之争;但更底层的矛盾是,计算单元越来越多,数据却越来越难喂饱它们。

如果SRAM继续停滞,AI芯片会越来越依赖HBM、先进封装、芯粒化缓存、近存计算、存算一体和更复杂的系统互连。芯片可以更强,但系统也会更贵、更复杂、更难扩展。

具体来看,SRAM缩不动至少会带来五个直接后果。

第一是裸片面积。SRAM面积不缩,芯片中片上存储占比就会上升。对于大GPU、AI ASIC和高性能CPU而言,这意味着更大的裸片面积、更高的光罩成本,以及更紧张的单次曝光面积限制。尤其是AI芯片往往需要大规模片上缓冲区、缓存和暂存存储,SRAM面积停滞会直接稀释先进节点的面积收益。

第二是良率。先进节点下,大尺寸裸片对缺陷密度更敏感。SRAM如果继续占用大量面积,就会把AI芯片推向更高良率压力。一个芯片上的SRAM阵列越大,对冗余设计、修复机制、测试成本和良率管理的要求也越高。

第三是功耗。片外搬数据通常比片内访问更耗能。SemiEngineering援引Rambus专家Steve Woo的观点指出,如果处理器核心无法获得足够SRAM,就必须从更远处搬数据,这会增加功耗并拉低性能。

第四是延迟。对大模型推理而言,尤其是解码阶段、长上下文、多轮对话和实时响应场景,KV缓存与中间状态访问会显著影响尾延迟和用户体验。片上SRAM越充足,越有机会减少访问HBM或跨芯片搬运的次数,从而降低不确定性。

第五是架构选择。SRAM缩不动,会迫使芯片公司在多种路线之间重新取舍:是继续堆HBM,还是做更大的片上SRAM?是走芯粒化缓存,还是走3D缓存?是采用近存计算、存算一体,还是通过CXL扩展外部内存池?这些选择都不只是工艺问题,而会直接影响AI芯片的系统形态。

这也是为什么SRAM重新变得重要。


巨头们,各出奇招


SRAM缩放放缓并不是IBM一家看到的问题。台积电、三星、英特尔过去几年的路线,已经从不同角度说明:SRAM正在从一个默认跟随逻辑缩放的配套模块,变成先进节点竞争力的重要指标。

台积电是SRAM缩放放缓最典型的案例。

如同文章开头所述,在3nm节点,台积电仍然实现了逻辑密度提升,但SRAM位单元已经几乎停滞。N3高密度SRAM位单元约0.0199平方微米,仅比N5的0.021平方微米缩小约5%;N3E的SRAM位单元约0.021平方微米,与N5基本接近。

到了N2,台积电试图把SRAM缩放重新拉回正轨。台积电官方研究页面显示,其2nm CMOS纳米片技术展示了38.1Mb/mm²的SRAM,用于高密度和高能效计算应用。该设计使用0.021平方微米的高密度位单元,并通过设计技术协同优化,让整体SRAM密度相较前一代技术提升1.1倍。

台积电2nm-CMOS纳米片工艺的 38.1Mb/mm² SRAM(图源:台积电)

这里的关键不是位单元尺寸大幅缩小,因为0.021平方微米本身并不比N5、N3E时代更小。真正的变化在于,台积电通过GAA纳米片、阵列设计、电路技术和设计技术协同优化,提高了SRAM宏单元层面的整体密度。Mark LaPedus对相关论文的梳理也提到,台积电2nm SRAM宏单元容量为580Kb,使用0.021平方微米位单元,整体SRAM密度较前代提升10%,达到38.1Mb/mm²。

台积电对SRAM问题的态度是:SRAM缩放不能再只靠几何微缩,而要靠器件结构、阵列架构、辅助电路和设计技术协同优化共同解决。这也解释了为什么台积电在面向AI/HPC的后续节点中继续强化A16、超级电轨(Super Power Rail)等技术。随着AI芯片越来越受限于供电、互连和片上存储,先进节点不再只是晶体管结构之争,而是逻辑、SRAM、供电网络、后端互连和先进封装的系统协同。

三星的路线更偏向结构创新。

2022年,三星宣布3nm GAA工艺进入初始生产,并称其MBCFET技术通过纳米片结构提升驱动电流能力、降低供电电压、改善功耗和性能。三星还强调,GAA可通过调整纳米片沟道宽度,针对不同客户需求优化功耗和性能。

这对SRAM尤其重要。三星在一篇专门讨论“3nm GAA MBCFET与SRAM设计灵活性”的技术博客中写到,MBCFET的纳米片宽度可调,能够为SRAM单元设计提供更大灵活性;通过分别调节PMOS和NMOS,以及下拉晶体管、传输门晶体管等器件的沟道宽度,可以在SRAM单元中获得更好的裕量。三星还称,GAA SRAM位单元相比鳍式晶体管需要更低功耗,并且由于GAA宽度可独立调整,能够改善性能、功耗、面积与SRAM稳定性之间的平衡。

从三星SF2节点看,这一思路仍在延续。三星官方逻辑节点页面显示,SF2作为第二代MBCFET/GAA先进节点,强调更强的稳定性、先进计算负载性能,以及通过多种纳米片宽度配置提升单位功耗性能,同时实现单元高度降低。

英特尔的思路则更偏向系统组合。英特尔18A的核心卖点是RibbonFET与PowerVia。英特尔官方介绍称,18A采用RibbonFET和PowerVia背面供电技术。PowerVia将供电网络移至晶圆背面,以减少正面金属层中电源与信号布线的拥塞,从而改善性能、功耗和密度。

从SRAM角度看,PowerVia的重要性不只在于提升逻辑标准单元的布线效率,也在于改善大规模片上存储附近的供电完整性。SRAM阵列对电压波动非常敏感,最低工作电压、读写稳定性、动态压降都会影响可用频率和工作电压。因此,背面供电本质上也是在为先进节点下SRAM和高密度逻辑阵列提供更稳定的电源基础。

IEDM相关资料显示,Intel 18A RibbonFET CMOS技术中包含0.023平方微米的高电流SRAM单元和0.021平方微米的高密度SRAM单元,并结合PowerVia背面供电。IEEE Xplore收录的论文摘要也显示,英特尔展示了首个基于RibbonFET技术、通过硅验证的高电流和高密度6T SRAM。

总体来看,台积电、三星、英特尔三家路线各不相同,但共同指向一个判断:SRAM已经成为先进制程的新考题。


IBM如何让SRAM继续缩放?


这就要回到晶体管结构本身。

传统CMOS里,nFET和pFET通常在同一平面左右排列。SRAM位单元又高度依赖n/p器件的密集排布。随着节点推进,晶体管本身可以继续缩,但n/p之间的隔离、不同功函数金属、源漏区、栅切割、局部互连和布线规则,不一定能同步缩。

换言之,SRAM不只是晶体管尺寸问题,更是版图、器件隔离、读写裕量、稳定性和互连规则共同约束的结果。

IBM Nanostack的思路,是把这件事从平面维度改写到垂直维度。IBM称,Nanostack是一种三维、基于纳米片的晶体管架构,通过垂直堆叠和错位排列晶体管来提升密度,并允许不同层使用不同材料组合,从而分别优化性能和功耗。

Futurum对IBM这款纳米堆叠晶体管的解读进一步提到,SRAM位单元中的N到P间距是长期约束,而Nanostack通过把N型和P型器件上下堆叠,把横向间距转化为纵向薄介质键合,从而移除一部分横向面积瓶颈;其解读称IBM VLSI 2026论文展示了超过40%的SRAM单元高度降低。

通俗地说,IBM不是靠把每个晶体管雕得更小来救SRAM,而是靠改变nFET和pFET的相对摆放方式:把原本占平面面积的隔离距离,压进垂直方向。

这和CFET SRAM研究方向是一致的。CFET,也就是互补场效应晶体管,本质上同样是把nFET和pFET从横向并排推进到垂直堆叠。IEEE Transactions on Electron Devices在2023年发表的一篇CFET SRAM设计技术协同优化论文摘要显示,A5 CFET SRAM相比A14纳米片SRAM可实现最高55%的位单元面积缩放,相比A10 forksheet SRAM也可实现约40%的位单元面积缩放。

IBM Nanostack展示的SRAM收益并不是偶然,而是整个先进逻辑从鳍式晶体管走向GAA纳米片,再走向forksheet、CFET、Nanostack和更广义3D CMOS过程中的一部分。

当然,IBM此次发布还有另一层产业含义:它试图重新定义GAA之后的晶体管路线。

IBM在纳米片/GAA方向上起步很早。2021年,IBM发布2nm纳米片技术,称其可相较7nm芯片实现45%的性能提升或75%的能耗降低。但从产业商业化角度看,GAA纳米片的实际量产红利更多落到了三星、台积电、英特尔等制造玩家手中。

2022年,IBM与日本Rapidus宣布战略合作。Rapidus将进一步开发IBM的2nm节点技术,并计划在其日本晶圆厂中导入相关技术;IBM也表示Rapidus工程师将与IBM研究人员在Albany NanoTech Complex展开合作。2024年,IBM和Rapidus又把合作扩展到2nm世代的芯粒封装技术。

但问题在于,IBM已经不是主流先进逻辑量产厂,真正落地仍要靠合作伙伴。Reuters在报道IBM此次0.7nm技术时提到,IBM尚未公布制造伙伴,但其此前曾将芯片技术授权给三星和日本Rapidus;IBM方面认为,该技术最早可能在未来五年内进入生产路径。


给SRAM续命的,还有他们


事实上,在IBM发布0.7nm Nanostack之前,AI芯片架构层面已经出现了一批重新重视SRAM的路线。

其中最典型的是Groq。Groq官方对LPU架构的介绍中明确提到,LPU集成了数百MB SRAM,并将其作为主要权重存储,而不是缓存,从而降低延迟,并使计算单元能够全速运行。这种架构可以支持跨芯片的高效张量并行,对于快速、可扩展的推理而言是一项实际优势。

Groq这一路线后来也吸引了英伟达的视线。2025年12月,Groq宣布与英伟达达成一项非独家的推理技术授权协议。按照Groq官方说法,双方合作的目标是扩大高性能、低成本推理能力;与此同时,Groq创始人Jonathan Ross、总裁Sunny Madra以及部分团队成员将加入英伟达,帮助推进和扩展被授权的推理技术。不过,Groq也强调,公司将继续作为独立公司运营,GroqCloud也会继续运行。

Groq路线的核心不是“SRAM容量比HBM大”。恰恰相反,单芯片SRAM容量远小于HBM。但SRAM的价值在于低延迟、高带宽、靠近计算和可预测性。Groq把权重和数据流尽可能显式安排在片上SRAM中,本质上是在用架构和编译器控制数据运动,而不是让硬件缓存层级和外部存储系统承担全部压力。

Cerebras则走得更极端。其WSE-3采用台积电5nm工艺,集成4万亿晶体管、90万个AI核心、125 PFLOPS峰值AI性能,并拥有44GB片上SRAM。Cerebras官方资料显示,WSE-3面向大模型训练与推理,试图通过晶圆级芯片方式,把计算、片上存储和互连铺在一整片晶圆上。

Groq和Cerebras代表了两种不同形态,但它们共同说明了一个趋势:AI芯片的差异化,不再只是张量计算单元有多强,也在于能把多少高带宽、低延迟的存储放到计算旁边。


结语


过去几十年,摩尔定律的核心是单位面积内容纳更多晶体管。到了AI时代,这个表达已经不够完整。AI芯片的竞争,已经不再只是计算单元之争,也越来越是片上存储能力之争。

如果SRAM通过Nanostack、CFET或其他3D CMOS路线重新获得一轮缩放,那么AI芯片架构就会获得新的设计空间。

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论