2024年,數(shù)據(jù)中心市場,英偉達顯卡依然一卡難求,已發(fā)布的A100、H100,L40S,還有即將發(fā)布的H200都是市場上的香餑餑。
2020年,英偉達發(fā)布了基于Ampere架構的A100。2022年,英偉達發(fā)布了基于Hopper架構的H100,2023年,英偉達又發(fā)布了L40S。
2024年,英偉達即將發(fā)布H200,雖然還沒正式發(fā)布,但部分規(guī)格已經(jīng)公開。于是,就有了這樣一張表格。
項目 |
A100 |
H100 |
L40S |
H200 |
架構 |
Ampere |
Hopper |
Ada Lovelace |
Hopper |
發(fā)布時間 |
2020 |
2022 |
2023 |
2024 |
FP64 |
9.7 TFLOPS |
34 TFLOPS |
暫無 |
34 TFLOPS |
FP64 向量核心 |
19.5 TFLOPS |
67 TFLOPS |
暫無 |
67 TFLOPS |
FP32 |
19.5 TFLOPS |
67 TFLOPS |
91.6 TFLOPS |
67 TFLOPS |
TF32 向量核心 |
312 TFLOPS |
989 TFLOPS |
183 | 366* TFLOPS |
989 TFLOPS* |
BFLOAT16 向量核心 |
624 TFLOPS |
1,979 TFLOPS |
362.05 | 733* TFLOPS |
1,979 TFLOPS* |
FP16 向量核心 |
624 TFLOPS |
1,979 TFLOPS |
362.05 | 733* TFLOPS |
1,979 TFLOPS* |
FP8 向量核心 |
不適用 |
3,958 TFLOPS |
733 | 1,466* TFLOPS |
3,958 TFLOPS* |
INT8 向量核心 |
1248 TOPS |
3,958 TOPS |
733 | 1,466* TFLOPS |
3,958 TFLOPS* |
INT4 向量核心 |
暫無 |
暫無 |
733 | 1,466* TFLOPS |
Data not available |
GPU 內(nèi)存 |
80 GB HBM2e |
80 GB |
48GB GDDR6 ,帶有ECC |
141GB HBM3e |
GPU 內(nèi)存帶寬 |
2,039 Gbps |
3.35 Tbps |
864 Gbps |
4.8 Tbps |
解碼器 |
Not applicable |
7 NVDEC 7 JPEG |
Not applicable |
7 NVDEC 7 JPEG |
TDP |
400W |
700W |
350W |
700W |
多實例GPU |
7 MIGs @ 10 GB |
7 MIGs @ 10 GB each |
無 |
7 MIGs @16.5 GB each |
外形尺寸 |
SXM |
SXM |
4.4“ (H) x 10.5” (L), dual slot |
SXM** |
互聯(lián)技術 |
NVLink: 600 GB/s PCIe Gen4: 64 GB/s |
NVLink: 900GB/s PCIe Gen5: 128GB/s |
PCIe Gen4 x16: 64GB/s bidirectional |
NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s |
服務器平臺選項 |
NVIDIA HGX? A100-Partner and NVIDIA-Certified Systems with 4,8, or 16 GPUs NVIDIA DGX? A100 with 8 GPUs |
NVIDIA HGX H100 Partner and NVIDIA-Certified Systems? with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs |
暫無 |
NVIDIA HGX? H200 partner and NVIDIA-Certified Systems? with 4 or 8 GPUs |
NVIDIA AI Enterprise |
Included |
Add-on |
暫無 |
Add-on |
CUDA 核心數(shù) |
6,912 |
16,896 |
18,176 |
暫無 |
A100支持多實例GPU功能,允許單個A100 GPU分割成多個獨立的小GPU,這大大提升了云和數(shù)據(jù)中心的資源分配效率。
盡管H100和A100在使用場景和性能特點上有相似之處,但H100在處理大型AI模型和更復雜的科學模擬方面表現(xiàn)更佳。H100是高級對話式AI和實時翻譯等實時響應型AI應用的更優(yōu)選擇。
在高性能計算方面,與CPU相比,H200能實現(xiàn)高達110倍的加速,從而更快地得到結果。
在處理Llama2 70B推理任務時,H200的推理速度是H100 GPU的兩倍。
H200將在邊緣計算和物聯(lián)網(wǎng)(IoT)應用中的人工智能物聯(lián)網(wǎng)(AIoT)方面發(fā)揮關鍵作用。
在包括最大型模型(超過1750億參數(shù))的LLP訓練和推理、生成式AI和高性能計算應用中,可以期待H200提供的GPU性能。
總之,H200將在AI和高性能計算領域提供的性能,特別是在處理大型模型和復雜任務時。它的高內(nèi)存容量和帶寬,以及優(yōu)異的推理速度,使其成為處理AI任務的理想選擇。