GPU / TPU 与计算硬件
问题
AI 训练和推理需要什么硬件?GPU 的显存、算力该如何评估和选型?
答案
一、GPU vs CPU
| 特性 | CPU | GPU |
|---|---|---|
| 核心数 | 8-128 | 数千~数万 |
| 适合任务 | 串行逻辑、复杂控制流 | 大规模并行计算 |
| AI 场景 | 不适合训练,可做小模型推理 | 训练和推理的标配 |
GPU 的优势在于大规模并行矩阵运算——而 Transformer 的核心就是矩阵乘法。
二、NVIDIA GPU 产品线
| GPU | 显存 | FP16 算力 | 适用场景 |
|---|---|---|---|
| RTX 4090 | 24GB | 330 TFLOPS | 个人研究/小模型微调 |
| A100 | 40/80GB | 312 TFLOPS | 训练/推理主力 |
| H100 | 80GB | 990 TFLOPS | 大模型训练 |
| H200 | 141GB | 990 TFLOPS | 超大模型,HBM3e |
| B200 | 192GB | 2250 TFLOPS | Blackwell 架构,最新 |
显存是核心瓶颈
LLM 推理的瓶颈通常是显存而非算力。一个 7B 参数的模型(FP16)需要约 14GB 显存。
三、显存需求估算
推理显存 ≈ 模型参数 × 每参数字节数 + KV Cache
| 模型大小 | FP16(2B/参数) | INT8(1B/参数) | INT4(0.5B/参数) |
|---|---|---|---|
| 7B | 14 GB | 7 GB | 3.5 GB |
| 13B | 26 GB | 13 GB | 6.5 GB |
| 70B | 140 GB | 70 GB | 35 GB |
四、TPU 与其他芯片
| 芯片 | 厂商 | 特点 |
|---|---|---|
| TPU v5p | 专为 Transformer 优化,Cloud 独享 | |
| Trainium2 | AWS | 训练专用,性价比高 |
| Inferentia2 | AWS | 推理专用,低成本 |
| Apple Silicon | Apple | M 系列 NPU,端侧推理 |
五、GPU 选型建议
常见面试问题
Q1: 为什么 GPU 适合深度学习?
答案:
- 深度学习的核心运算是矩阵乘法
- GPU 有数千个核心,擅长大规模并行计算
- GPU 有Tensor Core(专门的矩阵运算单元),加速矩阵乘法
- 高带宽显存(HBM)解决数据传输瓶颈
Q2: 一个 70B 参数的模型需要几张 GPU?
答案:
- FP16:70B × 2B = 140GB 显存,至少 2 × A100 80GB
- INT8:70B × 1B = 70GB,1 × A100 80GB 勉强可以
- INT4:70B × 0.5B = 35GB,1 × A100 40GB 或 RTX 4090
- 还需加上 KV Cache 等额外开销(约 10-20%)