跳到主要内容

GPU / TPU 与计算硬件

问题

AI 训练和推理需要什么硬件？GPU 的显存、算力该如何评估和选型？

答案

一、GPU vs CPU

特性	CPU	GPU
核心数	8-128	数千~数万
适合任务	串行逻辑、复杂控制流	大规模并行计算
AI 场景	不适合训练，可做小模型推理	训练和推理的标配

GPU 的优势在于大规模并行矩阵运算——而 Transformer 的核心就是矩阵乘法。

二、NVIDIA GPU 产品线

GPU	显存	FP16 算力	适用场景
RTX 4090	24GB	330 TFLOPS	个人研究/小模型微调
A100	40/80GB	312 TFLOPS	训练/推理主力
H100	80GB	990 TFLOPS	大模型训练
H200	141GB	990 TFLOPS	超大模型，HBM3e
B200	192GB	2250 TFLOPS	Blackwell 架构，最新

显存是核心瓶颈

LLM 推理的瓶颈通常是显存而非算力。一个 7B 参数的模型（FP16）需要约 14GB 显存。

三、显存需求估算

推理显存 ≈ 模型参数 × 每参数字节数 + KV Cache

模型大小	FP16（2B/参数）	INT8（1B/参数）	INT4（0.5B/参数）
7B	14 GB	7 GB	3.5 GB
13B	26 GB	13 GB	6.5 GB
70B	140 GB	70 GB	35 GB

\text{显存} \approx \text{参数量} \times \text{精度字节数} + \text{KV Cache} + \text{开销}

四、TPU 与其他芯片

芯片	厂商	特点
TPU v5p	Google	专为 Transformer 优化，Cloud 独享
Trainium2	AWS	训练专用，性价比高
Inferentia2	AWS	推理专用，低成本
Apple Silicon	Apple	M 系列 NPU，端侧推理

五、GPU 选型建议

常见面试问题

Q1: 为什么 GPU 适合深度学习？

答案：

深度学习的核心运算是矩阵乘法
GPU 有数千个核心，擅长大规模并行计算
GPU 有Tensor Core（专门的矩阵运算单元），加速矩阵乘法
高带宽显存（HBM）解决数据传输瓶颈

Q2: 一个 70B 参数的模型需要几张 GPU？

答案：

FP16：70B × 2B = 140GB 显存，至少 2 × A100 80GB
INT8：70B × 1B = 70GB，1 × A100 80GB 勉强可以
INT4：70B × 0.5B = 35GB，1 × A100 40GB 或 RTX 4090
还需加上 KV Cache 等额外开销（约 10-20%）

相关链接

问题
答案
常见面试问题
- Q1: 为什么 GPU 适合深度学习？
- Q2: 一个 70B 参数的模型需要几张 GPU？
相关链接