跳到主要内容

大语言模型知识体系概览

问题

大语言模型(LLM)的核心概念是什么?从预训练到部署的完整链路是怎样的?

答案

大语言模型(Large Language Model, LLM) 是基于 Transformer Decoder-only 架构、通过海量文本预训练获得强大语言能力的模型。它是当前 AI 应用的核心引擎。

一、LLM 全景图

二、核心知识点导航

知识领域核心问题文档链接
GPT 架构Decoder-only 结构、参数量、各组件作用GPT 架构详解
TokenizationBPE、SentencePiece、词表大小影响分词与 Tokenization
注意力在 LLM 中KV Cache、GQA、长上下文LLM 中的注意力机制
Scaling Law规模定律、Chinchilla 最优比例Scaling Law
涌现能力涌现、思维链、上下文学习涌现能力
预训练数据、训练目标、分布式训练预训练详解
对齐SFT、RLHF、DPO人类对齐
推理优化量化、KV Cache、投机采样推理优化
模型对比GPT/Claude/LLaMA/Gemini/Qwen主流模型对比
上下文窗口长上下文、RoPE 外推、RAG 限制上下文窗口
多模态Vision-Language、语音、视频多模态大模型
推理模型o1/o3、DeepSeek-R1、推理扩展推理模型

三、关键概念速览

Token 与词表

LLM 不直接处理文字,而是处理 Token——文本的最小处理单元。一个中文字通常是 1-2 个 Token,英文单词通常是 1-3 个 Token。

自回归生成

LLM 的生成方式:逐 Token 预测,每次只生成一个 Token,将其拼接到输入后继续生成下一个。

Temperature

生成时的"温度"参数——控制随机性:

  • T=0T = 0:确定性输出(贪心),总是选概率最高的 Token
  • T=0.7T = 0.7:适度随机,平衡创造性和准确性
  • T=1.5+T = 1.5+:高度随机,可能产生不连贯内容

四、LLM 发展时间线

时间里程碑意义
2018.06GPT-1(1.17 亿参数)验证预训练+微调范式
2019.02GPT-2(15 亿)证明规模提升带来质变
2020.06GPT-3(1750 亿)Few-shot 涌现
2022.03Chinchilla修正 Scaling Law
2022.11ChatGPTAI 应用爆发点
2023.02LLaMA开源 LLM 元年
2023.03GPT-4多模态、推理能力飞跃
2024.01DeepSeek V2/V3MoE 架构、成本革命
2024.09o1推理时计算扩展
2025.01DeepSeek-R1开源推理模型

五、学习路径建议


相关链接