图像分割
问题
图像分割有哪些类型?SAM 模型有什么特别之处?
答案
一、分割类型
| 类型 | 目标 | 代表模型 |
|---|---|---|
| 语义分割 | 每个像素分类 | DeepLab、SegFormer |
| 实例分割 | 区分不同实例 | Mask R-CNN |
| 全景分割 | 语义 + 实例 | Mask2Former |
| 交互式分割 | 用户指定区域 | SAM |
二、经典架构
U-Net 架构特点
- 编码器:下采样提取特征
- 解码器:上采样恢复分辨率
- 跳跃连接:将编码器特征与解码器对应层拼接,保留细节
三、SAM(Segment Anything Model)
SAM 是 Meta 发布的通用分割基础模型:
| 特点 | 说明 |
|---|---|
| 零样本 | 不需要针对特定类别训练 |
| 多种提示 | 支持点击、框选、文本提示 |
| 训练数据 | 11M 图片,1B+ mask |
| 应用 | 图像编辑、医学图像、遥感 |
四、应用场景
| 场景 | 适用分割类型 |
|---|---|
| 自动驾驶 | 全景分割(道路、车辆、行人) |
| 医学影像 | 语义分割(器官、病变) |
| 图片编辑 | 交互式分割(SAM 抠图) |
| 视频编辑 | 实例分割 + 跟踪 |
常见面试问题
Q1: 语义分割和实例分割的区别?
答案:
- 语义分割:只区分类别。两个人都标记为 "person",不区分是谁
- 实例分割:在语义分割基础上区分每个个体。两个人分别标记为 "person-1" 和 "person-2"
Q2: SAM 有什么局限性?
答案:
- 只做分割,不做分类(不知道分割出的是什么)
- 小目标/细粒度边缘精度不如专用模型
- 推理速度较慢(ViT-H 骨干网络)
- SAM 2 已改进:支持视频分割、速度更快