跳到主要内容

主流模型对比

问题

当前主流 LLM 有哪些？各自的特点和适用场景是什么？开源和闭源模型如何选择？

答案

一、闭源模型

模型	公司	参数规模	上下文	特点
GPT-4o	OpenAI	未公开	128K	多模态、速度快、性价比高
GPT-4.1	OpenAI	未公开	1M	超长上下文、指令跟随强
o3	OpenAI	未公开	200K	推理能力极强、数学/代码顶尖
Claude 4 Opus	Anthropic	未公开	200K	长文本理解、编程、安全性
Claude 4 Sonnet	Anthropic	未公开	200K	高性价比、MCP 协议
Gemini 2.5 Pro	Google	未公开	1M	超长上下文、多模态、代码
Grok 3	xAI	未公开	128K	实时信息、DeepSearch

二、开源模型

模型	公司	参数规模	上下文	特点
LLaMA 3.1	Meta	8B/70B/405B	128K	开源标杆、生态完善
DeepSeek V3	DeepSeek	671B (MoE, 37B 激活)	128K	MoE、超高性价比
DeepSeek R1	DeepSeek	671B (MoE)	128K	开源推理模型、CoT
Qwen 3	阿里	0.6B~235B	128K	中文最强、多尺寸
Mistral Large	Mistral	123B	128K	欧洲开源、高效
Gemma 3	Google	1B/4B/12B/27B	128K	轻量级、移动端

三、模型选型维度

四、按场景推荐

场景	推荐模型	理由
日常对话	GPT-4o / Claude Sonnet	平衡质量和速度
编程辅助	Claude Opus / Cursor	代码理解和生成最强
数学推理	o3 / DeepSeek R1	深度推理能力
长文档分析	Gemini 2.5 Pro / GPT-4.1	1M Token 上下文
中文场景	Qwen 3 / DeepSeek V3	中文能力最强
本地部署	LLaMA 3 8B / Qwen 3 7B	性价比高、生态好
RAG 应用	嵌入：text-embedding-3 / bge	不同环节用不同模型
低成本高吞吐	GPT-4o mini / Haiku	API 成本最低

五、模型架构对比

特性	GPT-4	LLaMA 3	DeepSeek V3
架构	传闻 MoE	稠密 Transformer	MoE
归一化	LayerNorm	RMSNorm	RMSNorm
激活函数	--	SwiGLU	SwiGLU
位置编码	--	RoPE (ABF)	RoPE + YaRN
注意力	MHA（传闻）	GQA	MLA（多头潜在注意力）
训练方法	SFT + RLHF	SFT + DPO	SFT + GRPO

MoE vs 稠密

稠密模型（LLaMA）：所有参数对每个 Token 都参与计算
MoE 模型（DeepSeek V3）：每个 Token 只激活部分专家（37B/671B），推理成本低但总参数大
MoE 的优势在于用更低的推理成本获得更高的模型容量

六、API 定价（2025 年参考）

模型	输入（$/M tokens）	输出（$/M tokens）
GPT-4o	$2.50	$10.00
GPT-4o mini	$0.15	$0.60
Claude Sonnet	$3.00	$15.00
Claude Haiku	$0.25	$1.25
Gemini 2.5 Pro	$1.25	$10.00
DeepSeek V3	$0.27	$1.10

常见面试问题

Q1: 如何选择 LLM？

答案：核心考虑因素：

任务类型：推理（o3/R1）、编程（Claude）、对话（GPT-4o）
部署方式：云 API（闭源 OK）、私有部署（必须开源）
成本预算：高预算用 GPT-4，低预算用 mini/haiku
延迟要求：实时用小模型，离线可用大模型
数据合规：敏感数据可能需要本地部署

Q2: 开源模型和闭源模型的差距在哪？

答案： 2025 年差距已大幅缩小：

编码/推理：DeepSeek R1 接近 o1、Claude 水平
通用对话：LLaMA 405B 接近 GPT-4 水平
差距仍在：多模态（Gemini 领先）、极端推理（o3 领先）、安全对齐（Claude 领先）
开源优势：可微调、可私有部署、成本可控、完全掌控

Q3: DeepSeek V3 的 MoE 架构有什么特点？

答案：

MLA（Multi-Head Latent Attention）：用低秩投影压缩 KV Cache，比 GQA 更激进
专家选择：671B 总参数，每 Token 只激活 37B（8 个专家中选 2 个）
辅助 Loss Free：用偏置项代替辅助损失做专家负载均衡
效果：推理成本接近 70B 稠密模型，但性能接近 400B+

相关链接

问题
答案
常见面试问题
相关链接