跳到主要内容

微调决策

问题

什么时候该微调模型?微调和 Prompt 工程如何选择?

答案

一、决策流程

二、Prompt 工程 vs RAG vs 微调

方案适用场景数据需求成本效果
Prompt 工程通用任务0最低
RAG需要外部知识文档中高
LoRA 微调特定风格/格式50~500 条
全量 SFT深度定制1000+ 条最高

三、什么时候该微调?

微调的正确时机
  1. Prompt 工程已到瓶颈:各种技巧都试了,效果仍不够
  2. 需要特定输出风格:品牌语气、专业术语、固定格式
  3. 需要降低成本:用小模型微调替代大模型
  4. 需要减少延迟:微调小模型比大模型 + 长 Prompt 更快
  5. 有足够标注数据:至少 50~100 条高质量样本
不该微调的情况
  • Prompt 工程还没认真做
  • 想让模型"学习新知识" → 用 RAG
  • 数据量不足或质量差
  • 场景变化快,需要频繁更新

四、微调 ROI 评估

因素考量
效果提升微调后准确率提升多少?
数据成本标注 500 条数据需要多少人力?
训练成本GPU 费用
维护成本多久需要重新微调?
替代方案Prompt + RAG 能达到多少效果?

常见面试问题

Q1: LoRA 和全量微调怎么选?

答案

方案训练参数GPU 需求效果推荐
LoRA0.1~1%单卡 24G+接近全量⭐ 首选
QLoRA0.1~1%单卡 12G+略低资源受限
全量 SFT100%多卡 80G+最好数据充足

建议:90% 的场景 LoRA 就够了。

Q2: 微调数据质量和数量哪个更重要?

答案
质量远比数量重要

  • 50 条高质量数据 > 500 条低质量数据
  • 关键是数据要覆盖目标场景的多样性
  • 数据格式要与推理时的输入格式一致

Q3: 微调后模型效果反而变差了怎么办?

答案
常见原因及解决方案:

  • 过拟合:数据太少或 epoch 太多 → 减少训练轮数、加数据
  • 灾难性遗忘:通用能力下降 → 混入通用数据、降低学习率
  • 数据质量差:垃圾进垃圾出 → 清洗数据
  • 格式不一致:训练和推理的 Prompt 格式不同 → 统一格式

相关链接