过去几个月,围绕着Intel18A和后续的芯片制造工艺有了很多的讨论,大家也对这家芯片巨头的未来发展有了很多猜测。现在,随着基于这个工艺打造的Panther Lake(Core Ultra 3)和Clearwater Forest(Xeon 6+)的发布,很多的流言可以被打破。
九月底,半导体行业观察和一众国内媒体受邀去到英特尔位于亚利桑那凤凰城的工厂,了解并参观了该公司位于当地的先进制造。在同期举办的Intel Tech Tour(简称ITT),英特尔技术人员还为我们详细解读了Clearwater Forest和Panther Lake的设计和细节。
总而言之,在笔者看来,英特尔的这次如期量产给我们传递了一个信息:你大爷还是你大爷。
Intel 18A,两项黑科技
在介绍这两款芯片之前,我们先来了解一下英特尔备受关注,集成了两项黑科技的Intel 18A工艺。按照英特尔所说,Intel 18A 工艺是美国开发和制造的首个 2 纳米级别节点,与Intel 35工艺相比,每瓦性能提高了 15%,芯片密度提高了 30%。该节点在该公司位于俄勒冈州的工厂开发、获得制造资格并开始早期生产,今年晚些时候将大批量生产。
那么,究竟这一代工艺,有何特别之处呢?我们先从芯片行业有一条以英特尔创始人戈登·摩尔命名的规律——摩尔定律。
根据笔者的理解,摩尔定律的内核其实就是想说芯片单位面积的晶体管数量会在一定时间周期内实现倍增。但为了实现这些目标,芯片产业用尽了各种办法。例如在晶体管方面,过去几十年行业就推动其从平面(Planer)走向了FinFET。但到了3nm以下,走向就GAA成为了所有晶圆厂商的目标。
而在英特尔18A上率先使用的RibbonFET,正是这类晶体管的代表。英特尔表示,RibbonFET是公司十多年来首款新型晶体管架构,可实现更大的扩展和更高效的切换,从而提高性能和能源效率。
英特尔专家此前曾在一篇新闻稿中强调“RibbonFET 可能是有史以来最难制造的晶体管。”
“RibbonFET 延续了几何级数的革命,将 FinFET 的鳍片翻转过来,并垂直堆叠,使它们可以像“带状”一样紧密排列(间距从约 30 纳米缩小到 10 纳米)。这值得付出努力:栅极环绕着带状结构,晶体管工作得更好。总而言之,每个晶体管的开关速度更快(性能更高)、运行效率更高(功耗更低),并且在晶圆上占用的面积更小。这代表着摩尔定律的应验。”该专家解说。
除了新晶体管,能增强电力流动和信号传输的突破性背面供电系统PowerVia也是Intel 18A不得不提的另一个亮点。
在传统的半导体设计中,电源 (VDD/GND)和信号互连均通过硅晶圆顶部的多层布线。然而随着晶体管尺寸缩小和布线密度增加,这种正面配置会导致:路由拥堵加剧、电压降和IR降以及电源效率的降低,难以满足信号完整性和性能目标。针对这种情况,业界就转向了背面供电,而PowerVia正是英特尔专有的背面供电网络 (BSPDN)技术。
在英特尔看来,这种技术这种方法的好处是多方面的,这远超新流程所增加的复杂性。
“例如,电源线最多可占用正面面积的20%,因此,去掉电源线后,互连层就可以“轻松”一些,足以抵消整个大型工艺的成本。通过简化了制造流程中最繁琐的部分,最终得到的结果是分为两部分的翻转工艺实际上比以前更便宜。”英特尔方面强调。
此外,如英特尔所示,再叠加先进的封装和 3D 芯片堆叠技术 Foveros,英特尔可以将多个芯片堆叠并集成到先进的 SoC 设计中,从而在系统级提供灵活性、可扩展性和性能。
在新发布的Clearwater Forest和Panther Lake上,英特尔将其制造的优势体现得淋漓尽致。
Panther Lake,全面升级
作为英特尔首款Intel 18A AI PC处理器,Panther Lake无疑是一颗性能与能效兼备的芯片。从配置上看,如图所示,英特尔的“Panther Lake”主要由五个tiles组成,分别是计算Tile、GPU Tile、Base Tile、Filler Tile和平台控制Tile。然后,再利用英特尔领先的Foveros 2.5D封装技术,把这些Tiles集成到一起,打造起一个极具竞争力的SoC。
英特尔公司客户端计算事业部副总裁兼中国区总经理高嵩在介绍这颗芯片的时候总结说,该系列处理器整体看来具备四大特点:
Panther Lake融合了Lunar Lake的高能效和Arrow Lake的高性能。二者优势合一,让Panther Lake成为一个兼具出色能效、卓越性能和强大扩展性的产品系列。
Panther Lake实现了显卡性能高达50%的提升;
NPU性能也实现了大幅增强,从而显著提升了整体AI性能。“这不仅是TOPS数值上的进步——从Lunar Lake的40多TOPS提升至Panther Lake的50 TOPS,同时NPU芯片的面积也有所缩小。尽管面积缩小在性能测试中不易直接体现,但它对降低制造成本具有非常重要的意义。”高嵩解释道。
Panther Lake在无线连接方面取得了长足的进步,无论是WIFI,Bluetooth,包括1GbE MAC技术都具备了更强的灵活性。“我们所采用业界最先进的无线技术Wi-Fi 7 R2,将AI PC与更强的连接性能相结合,将显著优化用户体验。”高嵩接着说。
如前面所说,英特尔领先的制造工艺是这颗芯片获得领先表现的关键。当然,除此以外,英特尔在架构和内核上的迭代创新,也是新处理器获得提升不可或缺的组成。
首先在Compute Tile方面,据介绍,这个Tile内部含有P 核(Cougar Cove)和 E 核(Darkmont)、NPU 5、IPU(Image Processing Unit ) 7.5 、内存接口以及和图形块分离的 Xe 媒体和显示引擎。当中,基于X86架构的Cougar Cove和Darkmont无疑是英特尔处理器的重中之重,这其实也是英特尔处理器的安身立命之本。
在 P 核(Cougar Cove),按照英特尔所示,新内核的改进主要是对现有 CPU 架构的典型改进,例如改进的分支预测器和容量更大的转换后备缓冲区 (TLB)。正如英特尔方面所说:“我们没有改变宽度,也没有改变深度,我们进行了优化。”英特尔同时强调:“Cougar Cove 现在采用了一种基于人工智能的电源管理方法,可以根据不同工作负载的需求动态调整某些功能单元(如预取器)的积极性。”
英特尔还指出,转向 18A 工艺使其能够在 Cougar Cove 中发展一些基础结构,而 TLB 是主要受益者之一。英特尔表示,更大的 TLB 意味着更复杂的工作负载能够更快、更可靠地运行。
来到E 核(Darkmont),英特尔中国区技术部总经理高宇介绍说,作为Skymont 的迭代版本,Darkmont的更新主要集中在三大关键阶段:前端、乱序执行核心以及后端执行端口。在这三个阶段,英特尔都实现了显著的改进。如图所示,英特尔在该内核的译码单元、指令队列等前端组件,以及乱序执行核心和后端执行端口实现了全面增强。也正是这三大阶段的全面优化,使得 Darkmont能效核的 IPC(每周期指令数)实现了超过 10% 的显著增长。
此外,从前面介绍可以看到,Panther Lake还拥有一个LPE核心。据高宇介绍,在新一代处理器中,这个内核是被放置在一个独立的供电岛上,拥有独立的电源管理,并且在缓存配置和运行频率上会根据其低功耗定位进行优化。正是得益于这个设计,使其在实际应用中的运行频率和功耗表现会根据整体平台设计进行调整,以实现最佳性能和能效平衡。
其次看GPU Tile,则具体指拥有多帧生成(即在实际渲染的帧之间插入 AI 生成的帧)能力的新一代GPU—— Xe3。
英特尔介绍说,Xe3 GPU 经过重新设计,以提高可扩展性。在 GPU 的渲染切片中,英特尔将 Xe 核心数量从 4 个增加到 6 个,一级缓存从 192 KB 增加到 256 KB,二级缓存从 8 MB 升级到 16MB,从而减少了访问本地内存的需求并提升了性能。英特尔同时指出,Xe3 GPU 的分配线程中还采用了可变分配策略,这对性能产生了显著的影响。
来到多帧生成方面,如图所示,在此前英特尔就介绍过XeSS 2 ,旨在加速视频游戏的图形处理速度。其中,XeSS 帧生成功能在两个“真实”渲染帧之间插入一个 AI 生成的帧,并使用低延迟技术来抵消由此产生的延迟。
Panther Lake的发布,英特尔推出了 XeSS-MFG(XeSS Multiframe Generation)功能,它可以与现有的升级和多帧生成技术相结合,最多注入三个额外的插值帧。按照英特尔介绍说,在实际应用中,你可以将其作为英特尔现有英特尔图形软件包的一部分进行控制,也可以选择设置额外的帧,或者让应用程序自行决定。
值得一提的是,该软件还将提供一些选项,例如指定与 GPU 共享多少系统内存,这对于人工智能甚至某些游戏来说意义重大。
对于这项技术的引入,我们不能忽视的一个点是生成插帧带来的延迟。对此,英特尔方面表示,游戏玩家对于延迟的体验可以归纳为用户输入和感知到的运动之间的延迟。而要解决这个问题,可以通过AI预测鼠标移动或调整栅格化到AI渲染帧的可变速率来解决。
英特尔还推出了预编译着色器分发版,让你的电脑无需等待编译着色器,只需从云端下载预编译着色器即可。此外,英特尔还在开发Intelligent Bias Control 3.0 版,让CPU 和 GPU 可以相互通信,并将电源分配到合适的逻辑。作为一项对Thread Director补充的技术,它能让GPU 性能至少提升 10%。
再看NPU方面,高嵩介绍说,英特尔NPU 4在能效性能实现了重大突破。在芯片面积方面,新一代加速器同比缩小40%,进而带来了成本和集成度优势;在算力方面,新一代加速器的数据达到了50 TOPS,较前代提升非常明显。另外,该NPU还原生支持FP8,这对大语言模型支持更好。
从数据上看,集成在Panther Lake 的 NPU 5 具有 4.5MB 暂存器 RAM、256KB 二级缓存和 6 个 SHAVE DSP。 英特尔指出,Panther Lake 的NPU5最大变化就在于对 MAC 阵列的进一步改进改进调整。据介绍,其单位面积 MAC 数量翻了一番,这就带来了其单位面积 TOPS 比 Lunar Lake NPU 提高了 40%。
得益于这些领先的CPU和iGPU和NPU,英特尔能为PC上的AI任务提供广泛的支持。高宇也重申:“英特尔坚持走XPU路线,也就是CPU、iGPU、NPU都要用起来,协同工作,各司其职。”“CPU擅长快速响应,所以那些对响应速度要求很高的模型我们建议跑在CPU上,比如说语音转文字。而GPU的特点是什么呢?它的带宽是比较大的,所以对带宽追求高的应该是跑在GPU上。NPU的特点是能效比很高,所以追求能效的应该跑在NPU上。”高宇接着说。
据介绍,由于CPU能提供10TOPS的算力,iGPU能提供120TOPS的算力,NPU能提供50TOPS的算力,这就让基于Panther Lake在处理各种AI任务的时候游刃有余。除了这些算力芯片以外。如上所述,各种连接和显示、媒体部件也是Panther Lake不得不提的重要组成。
正是基于这些领先配置,英特尔为Panther Lake打造了以下三款产品:
一款 8 核芯片,具有 4 个 P 核、4 个低功耗 (LP) E 核;4 个 Xe3 GPU 核心和 4 个光线追踪单元;内存接口为 6800 MT/s LPDDR5x 或 6400 MT/s DDR5;
一款16 核芯片,具有 4 个 P 核、8 个 E 核和 4 个 LP E 核;4 个 Xe3 GPU 核心和 4 个光线追踪单元;内存接口为 8533 MTs/LPDDR5x 或 7200 MT/s DDR5;
一款 16 核芯片,具有 4 个 P 核、8 个 E 核和 4 个 LP E 核、12 个 Xe3 GPU 核和 12 个光线追踪单元;以及 9600MT/s LPDDR5x 的内存接口;
值得一提的是,如图所示,8 核 Panther Lake 芯片将拥有 12 条 PCIe 通道(8 条 PCIe 4 通道、4 条 PCIe 5 通道),而 16 核芯片将拥有 20 条 PCIe 通道(8 条 PCIe 4 通道和 12 条 PCIe 5 通道)。16 核 12Xe Panther Lake 芯片则将配置降至 12 条 PCIe 通道,与 8 核芯片相同。
英特尔强调,Panther Lake 引入了可扩展的多芯片架构,为合作伙伴提供前所未有的灵活性,涵盖各种规格、细分市场和价位,为广泛的消费级和商用 AI PC、游戏设备和边缘解决方案提供支持。当中,包括机器人在内的边缘应用也是Panther Lake发力的方向。英特尔透露,全新的英特尔机器人 AI 软件套件和参考板,使拥有先进 AI 能力的客户能够利用 Panther Lake 快速创新,开发出经济高效的机器人,用于控制和 AI/感知。
“Panther Lake 将于今年开始大批量生产,首批 SKU 预计将于今年年底前发货,并将于 2026 年 1 月开始广泛上市。”英特尔强调。
288核的Clearwater Forest
在本届的ITT上,英特尔还带来了面向数据中心的 Sierra Forest接班人——基于E-Core设计的Xeon 6+ CPU 产品。回看英特尔过去在至强的布局,这可能是英特尔将其Xeon 产品线细分为 P-Core系列和 E-Core 系列的开端。
据介绍,基于全新“Darkmont”高效核心构建的Clearwater Forest采用多层解决方案,包含多个芯片组和构建模块,这使其成为英特尔的一项重大工程成就。而通过将重大架构升级与最新的18A制程工艺、先进的3D Foveros封装和EMIB技术相结合,英特尔打造出了迄今为止最高效的服务器处理器。也正是籍着Clearwater Forest的发布,英特尔将其分解式架构和封装设计提升到了一个新的高度。
我们再次看一下Darkmont E-core。
据介绍,该内核主要依赖于更宽、更并行的前端和增强的乱序执行引擎;同时,Darkmont的每个核心配备64 KB指令缓存,并扩展了解码器,使其每个周期能够处理比之前一代的Crestmont E-core更多的指令;至于其重新排序和分配结构,也得到了改进;此外,分配单元有所增加、乱序窗口也得到了扩大,以容纳更多正在进行的工作;再者,执行资源也成倍增加,用于整数和矢量运算的执行端口也大幅增加,这使得核心能够维持更高的并行吞吐量。
从设计上看,英特尔介绍说,一颗 Clearwater Forest由 12 个采用 2.5D 封装的 EMIB tiles组成,这些tiles将三个active base tiles连接在一起,然后连接到两个 I/O tiles和总共 12 个计算tiles。其中I/O 模块采用intel 7 工艺打造,active base tiles采用intel 3 工艺打造,计算芯片组则采用intel 18A 工艺节点制造。
首先看计算tiles,如图所示,每个计算tiles,由 6 个模块组成,每个模块包含 4 个 Darkmont E-Core。这样,每个计算tiles就有 24 个 Darkmont E-Core,12 个计算tiles上共有 288 个 E-Core。每个模块还包含 4 MB 的 L2 缓存,这意味着每个计算块拥有 24 MB 的 L2 缓存,12 个计算块总共拥有 288 MB 的 L2 缓存,这就让整个芯片的 L3+L2 缓存总计高达 864 MB。
再看I/O Tile,据介绍,Clearwater Forest的每个 I/O Tile 提供 48 条 PCIe Gen 5.0 通道(共计 96 条)、32 条 CXL 2.0 通道(共计 64 条)和 96 条 UPI 2.0 通道(共计 192 条)。
至于三个Active Base Tile,则采用Intel 3工艺制造,每个Base Tile搭载四个 DDR5 内存控制器,芯片上总共有 12 个内存通道。值得一提的是,该模块还包含一个共享 LLC,每个Compute Tile 48 MB,每个Base Tile192 MB,这就使得能提供高达 576 MB 的封装内 LLC 容量。这些 Tile使用 EMIB 连接到其上方的计算模块 (Compute Tile)。
从英特尔的介绍我们得知,Clearwater Forest 还是其首款采用 Foveros Direct3D 技术的量产 CPU。作为一种先进的封装解决方案,Foveros Direct 3D 是可在active base tiles上将计算tiles和 IO tiles连接在一起。由于Foveros Direct 3D 的凸块间距为 9 微米,并采用铜对铜键合技术,因此它充当高密度、低电阻的有源硅中介层,性能约为 0.05pJ/bit。换而言之,这意味着英特尔几乎无需消耗任何功耗即可在两个芯片之间传输数据。通过将EMIB与 Foveros 芯片的结合,英特尔在Clearwater Forest 上能连接异构组件,从而形成了一个包含大量有源芯片的封装设计。
总结而言,Clearwater Forest 的参数如下所示。英特尔指出,与上一代产品相比,Clearwater Forest 每周期指令数 (IPC) 提升了 17%;密度、吞吐量和功率效率也显著提高’。作为一款专为超大规模数据中心、云提供商和电信公司量身定制的产品,Clearwater Forest 使组织能够扩展工作负载、降低能源成本并提供更智能的服务。
从平台上看,英特尔 Clearwater Forest CPU 将支持 LGA 7529 插槽的 1S 和 2S 配置;Clearwater Forest 也包含了英特尔软件防护扩展 (SGX:Software Guard Extensions) 和英特尔信任域扩展 (TDX:Trust Domain Extensions);在电源管理方面;Clearwater Forest 则将搭载英特尔 AET(Application Energy Telemetry)和英特尔 Turbo 速率限制器;最后,Clearwater Forest CPU 将获得高级矢量扩展 2,并支持 VNNI 和 INT8。
据称,Clearwater Forest 与当前的 Xeon 69xxE/P 平台兼容,允许重复使用现有服务器,同时保留 12 个内存通道以及广泛的 PCIe 和 CXL 支持。而随着内存速度正朝着 DDR5-8000 迈进,英特尔还公布了一个系统规格,例如每个插槽最多 288 个核心,双插槽上限接近 576 个核心,以及整个封装中超过 1,152 MB 的组合末级缓存。
写在最后
基于上述发布可以看到,英特尔不仅能够在芯片设计和制造方面取得重大进展,而且还表明该公司正在倾听客户的需求,并做出必要的战略调整以保持竞争力。尽管PC和服务器市场都已日趋成熟,但新进入者仍在不断涌现,英特尔要想保持领先地位,还是需要多花点心思。
然而,正如英特尔首席执行官陈立武咋公司新闻稿中所说:“我们正迈入一个激动人心的全新计算时代,这得益于半导体技术的飞跃发展,而这些技术将塑造未来几十年的未来。我们的下一代计算平台,结合我们领先的制程技术、制造和先进封装能力,将成为我们构建全新英特尔的各项业务创新的催化剂。美国一直是英特尔最先进的研发、产品设计和制造基地——我们很自豪能够在此基础上继续发展,不断拓展美国业务,并将新的创新推向市场。”
虽然不能一蹴而就,但笔者认为,在这些产品和技术的支持下,英特尔已然踏上了卷土重来的新旅程。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
注:本文来自半导体行业观察《英特尔18A正式亮相,两款芯片重磅发布》;作者:李寿鹏