跳到主要内容

主流模型对比

问题

当前主流 LLM 有哪些?各自的特点和适用场景是什么?开源和闭源模型如何选择?

答案

一、闭源模型

模型公司参数规模上下文特点
GPT-4oOpenAI未公开128K多模态、速度快、性价比高
GPT-4.1OpenAI未公开1M超长上下文、指令跟随强
o3OpenAI未公开200K推理能力极强、数学/代码顶尖
Claude 4 OpusAnthropic未公开200K长文本理解、编程、安全性
Claude 4 SonnetAnthropic未公开200K高性价比、MCP 协议
Gemini 2.5 ProGoogle未公开1M超长上下文、多模态、代码
Grok 3xAI未公开128K实时信息、DeepSearch

二、开源模型

模型公司参数规模上下文特点
LLaMA 3.1Meta8B/70B/405B128K开源标杆、生态完善
DeepSeek V3DeepSeek671B (MoE, 37B 激活)128KMoE、超高性价比
DeepSeek R1DeepSeek671B (MoE)128K开源推理模型、CoT
Qwen 3阿里0.6B~235B128K中文最强、多尺寸
Mistral LargeMistral123B128K欧洲开源、高效
Gemma 3Google1B/4B/12B/27B128K轻量级、移动端

三、模型选型维度

四、按场景推荐

场景推荐模型理由
日常对话GPT-4o / Claude Sonnet平衡质量和速度
编程辅助Claude Opus / Cursor代码理解和生成最强
数学推理o3 / DeepSeek R1深度推理能力
长文档分析Gemini 2.5 Pro / GPT-4.11M Token 上下文
中文场景Qwen 3 / DeepSeek V3中文能力最强
本地部署LLaMA 3 8B / Qwen 3 7B性价比高、生态好
RAG 应用嵌入:text-embedding-3 / bge不同环节用不同模型
低成本高吞吐GPT-4o mini / HaikuAPI 成本最低

五、模型架构对比

特性GPT-4LLaMA 3DeepSeek V3
架构传闻 MoE稠密 TransformerMoE
归一化LayerNormRMSNormRMSNorm
激活函数--SwiGLUSwiGLU
位置编码--RoPE (ABF)RoPE + YaRN
注意力MHA(传闻)GQAMLA(多头潜在注意力)
训练方法SFT + RLHFSFT + DPOSFT + GRPO
MoE vs 稠密
  • 稠密模型(LLaMA):所有参数对每个 Token 都参与计算
  • MoE 模型(DeepSeek V3):每个 Token 只激活部分专家(37B/671B),推理成本低但总参数大
  • MoE 的优势在于用更低的推理成本获得更高的模型容量

六、API 定价(2025 年参考)

模型输入($/M tokens)输出($/M tokens)
GPT-4o$2.50$10.00
GPT-4o mini$0.15$0.60
Claude Sonnet$3.00$15.00
Claude Haiku$0.25$1.25
Gemini 2.5 Pro$1.25$10.00
DeepSeek V3$0.27$1.10

常见面试问题

Q1: 如何选择 LLM?

答案: 核心考虑因素:

  1. 任务类型:推理(o3/R1)、编程(Claude)、对话(GPT-4o)
  2. 部署方式:云 API(闭源 OK)、私有部署(必须开源)
  3. 成本预算:高预算用 GPT-4,低预算用 mini/haiku
  4. 延迟要求:实时用小模型,离线可用大模型
  5. 数据合规:敏感数据可能需要本地部署

Q2: 开源模型和闭源模型的差距在哪?

答案: 2025 年差距已大幅缩小:

  • 编码/推理:DeepSeek R1 接近 o1、Claude 水平
  • 通用对话:LLaMA 405B 接近 GPT-4 水平
  • 差距仍在:多模态(Gemini 领先)、极端推理(o3 领先)、安全对齐(Claude 领先)
  • 开源优势:可微调、可私有部署、成本可控、完全掌控

Q3: DeepSeek V3 的 MoE 架构有什么特点?

答案

  • MLA(Multi-Head Latent Attention):用低秩投影压缩 KV Cache,比 GQA 更激进
  • 专家选择:671B 总参数,每 Token 只激活 37B(8 个专家中选 2 个)
  • 辅助 Loss Free:用偏置项代替辅助损失做专家负载均衡
  • 效果:推理成本接近 70B 稠密模型,但性能接近 400B+

相关链接