艾达·洛夫莱斯微架构
发布于 | 2022 年 10 月 12 日 |
---|---|
设计者 | Nvidia |
制造商 | |
制造工艺 | TSMC 4N |
产品系列 | |
台式机系列 | |
专业级/
工作站系列 |
|
服务器/
数据中心系列 |
|
技术规格 | |
时钟频率 | 735 MHz - 2640 MHz |
一级缓存 | 128 KB (每组 SM) |
二级缓存 | 32 MB - 96 MB |
显存类型 | |
显存频率 | 21 - 22.4 Gbps |
PCIe版本 | PCIe 4.0 |
图形API | |
DirectX | DirectX 12 Ultimate (12.2) |
Direct3D | Direct3D 12 |
Shader Model | Shader Model 6.7 |
OpenCL | OpenCL 3.0 |
OpenGL | OpenGL 4.6 |
CUDA | Compute Capability 8.9 |
Vulkan | Vulkan 1.3 |
通用计算API | |
CUDA | CUDA Toolkit 11.6 |
DirectCompute | 支持 |
媒体编解码引擎 | |
编码引擎 | |
解码引擎 | |
色彩深度 |
|
编码器 | NVENC |
显示输出 | |
历史 | |
前代产品 | Ampere |
变体 | Hopper (数据中心) |
Ada Lovelace 是Nvidia开发的图形处理单元(GPU) 微架构,用于取代上一代安培架构,于 2022 年 9 月 20 日正式宣布。架构名称首次同时包含名字和姓氏,它以英国数学家Ada Lovelace [1]的名字命名,她通常被认为是第一位计算机程序员。 Nvidia 同时发布了使用该架构的GeForce 40 系列消费级显卡 [2]和 RTX 6000 Ada Generation 专业工作站显卡。 [3]据透露,新的 GPU 使用台积电新的5 纳米“4N”工艺,与 Nvidia 用于上一代安培架构的三星8 纳米和台积电N7工艺相比,效率更高。 [4]
背景
[编辑]Nvidia 首席执行官黄仁勋在 2022 年 9 月 20 日的 GTC 2022 主题演讲中宣布了 Ada Lovelace 架构,该架构为 Nvidia 的游戏、工作站和数据中心 GPU 提供动力。 [5]
微架构详解
[编辑]Ada Lovelace 架构的架构改进包括以下内容: [6]
- CUDA 计算能力(版本) 8.9 [7]
- 台积电4N 工艺(NVIDIA 定制工艺)- 与台积电N4节点不同
- 第 4 代 Tensor Cores,支持 FP8、FP16、bfloat16、TensorFloat-32 (TF32) 和稀疏加速
- 第三代光线追踪核心,并发光线追踪,着色与计算
- 着色器执行重新排序 (SER) [8]
- 视频编解码器(NVENC/NVDEC) 支持 8K 10 Bit 60FPS AV1
- 不支持NVLink [9]
流处理器 (SM)
[编辑]CUDA 核心
[编辑]每个 SM 单元包含 128 个 CUDA 核心。
光线追踪单元 (RT)
[编辑]Ada Lovelace 采用第三代光追单元。 其中,RTX 4090 具有 128 个光追单元,而上一代 RTX 3090 Ti 为 84 个。这 128 个光追单元可以提供高达 191 TFLOPS 的计算能力,其中每个光追单元 1.49 TFLOPS。 [10] 全新的光线追踪管线引入了着色器执行重排序 (SER),Nvidia 声称它在光追工作负载中能提供 2 倍的性能提升。 [5]
张量核心 (Tensor)
[编辑]第四代张量核心引入了基于 AI 的 DLSS 3 帧生成技术。Ada Lovelace 中每个 SM 单元包含 4 个张量核心,与上代安培架构非常相似。但是由于包含了更多的 SM 单元,张量核心的总数对比上代有所增加。
核心频率
[编辑]Ada Lovelace 架构的核心频率显著提高,RTX 4090 的基础频率甚至高于 RTX 3090 Ti 的加速 (Boost) 频率。
RTX 2080 Ti | RTX 3090 Ti | RTX 4090 | |
---|---|---|---|
架构 | 图灵 | 安培 | 埃达·洛夫莱斯 |
基础频率 (MHz) | 1350 | 1560 | 2235 |
加速频率 (MHz) | 1635 | 1860 | 2520 |
缓存与内存
[编辑]RTX 2080 Ti | RTX 3090 Ti | RTX 4090 | |
---|---|---|---|
架构 | 图灵 | 安培 | 埃达·洛夫莱斯 |
一级缓存 | 6.375 MB
(每组SM 96 KB) |
10.5 MB
(每组SM 128 KB) |
16 MB
(每组SM 128 KB) |
二级缓存 | 5.5 MB | 6 MB | 72 MB |
完整版的 AD102 核心拥有高达 96 MB 的二级缓存,相比基于安培架构的 GA102 核心,有着十六倍的提升。 [11]相较于那些通过较慢GDDR显存读取数据的GPU,新的GPU能够快速访问大量二级缓存,这有利于复杂的操作,例如光线追踪。与此同时,通过减少需要频繁访问的重要数据对显存的依赖,较低位宽的显存也可以和大容量二级缓存协同工作。
每个内存控制器占用一个 32 位连接,最高 12 个连接,组合得到内存总线位宽为 384 位。 Ada Lovelace 架构支持GDDR6或GDDR6X显存。台式机 GeForce RTX 40 系列采用 GDDR6X 显存,而相应的移动版本和 RTX A6000 工作站 GPU 则使用更节能的 GDDR6 显存。
效率和工艺
[编辑]与上一代相比,Ada Lovelace 架构能够使用更低的电压。 [5] Nvidia 声称,RTX 4090 在与上一代旗舰 RTX 3090 Ti 使用相同 450W 功耗的情况下,性能提高了 2 倍。 [12]
能耗比的提升归功于更先进的制造工艺。 Ada Lovelace 架构采用TSMC为Nvidia定制的顶尖4N工艺制造。上一代安培架构从 2018 年开始使用三星基于 8nm 的8N工艺节点,在该架构推出时已经是两年前的制造工艺。 [13] [14] 此外,具有 763 亿个晶体管的 AD102 芯片,晶体管密度为 1.255 亿/mm 2 ,比 GA102 的 4510 万/mm 2密度增加了 178%。
媒体引擎
[编辑]Ada Lovelace 架构采用了新的第 8 代 Nvidia NVENC视频编码器,以及从安培架构沿用下来的第 7 代 NVDEC 视频解码器。 [15]
NVENC AV1硬件编码的加入,使得新架构支持高达 8K 60FPS 10 位色深。与H.264和H.265编解码器相比,能够以更低的比特率实现更高的视频保真度。 [16] Nvidia 声称其采用 Ada Lovelace 架构的 NVENC AV1 编码器比采用安培架构的 H.264 编码器效率高 40%。 [17]
输出接口
[编辑]Ada Lovelace 架构因仍旧使用 32Gbps 的旧 DisplayPort 1.4a,不支持具备更高数据带宽的DisplayPort 2.0接口而受到批评。 [18]因此,尽管 GPU 的性能能够达到更高的帧率,但依然会受到 DisplayPort 1.4a 的刷新率限制。反观同样于 2022 年 10 月发布的英特尔Arc GPU 却带有 DisplayPort 2.0 接口。在 Ada Lovelace 发布的两个月后, AMD对标的 RDNA 3 架构发布,RDNA 3 甚至支持 DisplayPort 2.1 。[19]
核心参数
[编辑]芯片[20] | AD102 [21] | AD103 [22] | AD104 [23] | AD106 [24] | AD107 [25] |
---|---|---|---|---|---|
尺寸 | 608 mm2 | 378.6 mm2 | 295 mm2 | 190 mm2 | 146 mm2 |
晶体管 | 763亿 | 459亿 | 358亿 | 未知 | |
晶体管密度 | 1.255 亿/mm2 | 1.211 亿/mm2 | 1.214 亿/mm2 | ||
图形处理集群
(GPC) |
12 | 7 | 5 | 3 | 2 |
流处理器
(SM) |
144 | 80 | 60 | 36 | 24 |
CUDA
核心 |
18432 | 10240 | 7680 | 4608 | 3072 |
纹理映射单元 | 576 | 320 | 240 | 144 | 96 |
渲染输出单元 | 192 | 112 | 80 | 64 | 32 |
张量核心 | 576 | 320 | 240 | 144 | 96 |
光追单元 | 144 | 80 | 60 | 36 | 24 |
一级缓存 | 18 MB | 10 MB | 7.5 MB | 4.5 MB | 3 MB |
每个 SM 单元 128 KB | |||||
二级缓存 | 96 MB | 64 MB | 48 MB | 32 MB |
基于 Ada Lovelace 架构的产品
[编辑]消费级
[编辑]- GeForce 40 系列
- GeForce RTX 4050(移动端)(AD107)
- GeForce RTX 4060(移动端)(AD107)
- GeForce RTX 4070(移动端)(AD106)
- GeForce RTX 4070 (AD104)
- GeForce RTX 4070 Ti (AD104)
- GeForce RTX 4080(移动端)(AD104)
- GeForce RTX 4080 (AD103)
- GeForce RTX 4090(移动端)(AD103)
- GeForce RTX 4090 (AD102)
专业级
[编辑]- 桌面工作站
- RTX 4000 SFF Ada Generation
- RTX 6000 Ada Generation
- 移动工作站
- RTX 2000 Max-Q Ada Laptop
- RTX 2000 Ada Laptop
- RTX 3000 Ada Laptop
- RTX 3500 Ada Laptop
- RTX 4000 Ada Laptop
- RTX 5000 Ada Laptop
- 数据中心
- L4
- L40
- L40G
- L40 CNX
- ^ Mujtaba, Hassan. NVIDIA's Next-Gen Ada Lovelace Gaming GPU Architecture For GeForce RTX 40 Series Confirmed. Wccftech. September 15, 2022 [November 18, 2022]. (原始内容存档于2022-10-01) (美国英语).
- ^ NVIDIA Delivers Quantum Leap in Performance, Introduces New Era of Neural Rendering with GeForce RTX 40 Series. NVIDIA Newsroom (新闻稿). September 20, 2022 [September 20, 2022]. (原始内容存档于2023-03-15) (美国英语).
- ^ NVIDIA's New Ada Lovelace RTX GPU Arrives for Designers and Creators. Nvidia Newsroom. September 20, 2022 [November 18, 2022]. (原始内容存档于2023-05-29) (美国英语).
- ^ Machkovec, Sam. Nvidia's Ada Lovelace GPU generation: $1,599 for RTX 4090, $899 and up for 4080. Ars Technica. September 20, 2022 [November 18, 2022]. (原始内容存档于2023-04-03) (美国英语).
- ^ 5.0 5.1 5.2 Chiappetta, Marco. NVIDIA GeForce RTX 40 Architecture Overview: Ada's Special Sauce Unveiled. HotHardware. September 22, 2022 [April 8, 2023]. (原始内容存档于2023-06-28) (美国英语).
- ^ NVIDIA Ada Lovelace Architecture. NVIDIA. September 20, 2022 [September 20, 2022]. (原始内容存档于2023-07-02) (美国英语).
- ^ CUDA C++ Programming Guide. docs.nvidia.com. [April 15, 2023]. (原始内容存档于2021-05-03).
- ^ Improve Shader Performance and In-Game Frame Rates with Shader Execution Reordering. NVIDIA Technical Blog. October 13, 2022 [April 6, 2023]. (原始内容存档于2023-05-25) (美国英语).
- ^ btarunr. Jensen Confirms: NVLink Support in Ada Lovelace is Gone. TechPowerUp. September 21, 2022 [November 18, 2022]. (原始内容存档于2022-10-18) (美国英语).
- ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 30. [April 5, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语).
- ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 12. [April 6, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语).
- ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 12. [April 5, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语).
- ^ James, Dave. Nvidia confirms Samsung 8nm process for RTX 3090, RTX 3080, and RTX 3070. PC Gamer. September 1, 2020 [April 5, 2023]. (原始内容存档于2023-04-13) (美国英语).
- ^ Bosnjak, Dominik. Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards. SamMobile. September 1, 2020 [April 5, 2023]. (原始内容存档于2023-04-07) (美国英语).
- ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 25. [April 5, 2023]. (原始内容存档 (PDF)于2023-07-04) (美国英语).
- ^ Muthana, Prathap; Mishra, Sampurnananda; Patait, Abhijit. Improving Video Quality and Performance with AV1 and NVIDIA Ada Lovelace Architecture. Nvidia Developer. January 18, 2023 [April 5, 2023]. (原始内容存档于2023-05-20) (美国英语).
- ^ Nvidia Ada Science: How Ada advances the science of graphics with DLSS 3 (PDF). Nvidia: 13. [April 5, 2023]. (原始内容存档 (PDF)于2023-03-24) (美国英语).
- ^ Garreffa, Anthony. NVIDIA's next-gen GeForce RTX 40 series lack DP2.0 connectivity, silly. TweakTown. September 25, 2022 [April 5, 2023]. (原始内容存档于2023-04-06) (美国英语).
- ^ Judd, Will. AMD announces 7900 XTX and 7900 XT graphics cards with FSR 3. Eurogamer. November 3, 2022 [April 5, 2023]. (原始内容存档于2023-04-05) (英国英语).
- ^ NVIDIA confirms Ada 102/103/104 GPU specs, AD104 has more transistors than GA102. VideoCardz. September 23, 2022 [September 23, 2022]. (原始内容存档于2023-06-03) (美国英语).
- ^ NVIDIA AD102 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语).
- ^ NVIDIA AD103 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语).
- ^ NVIDIA AD104 GPU Specs. TechPowerUp. [October 18, 2022] (美国英语).
- ^ NVIDIA AD106 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语).
- ^ NVIDIA AD107 GPU Specs. TechPowerUp. [December 17, 2022] (美国英语).