AI 基础知识体系概览

什么是人工智能？

人工智能（Artificial Intelligence, AI） 是一个广义概念，指让计算机模拟人类智能行为的技术——包括感知、学习、推理、决策和交互。AI 从 1956 年达特茅斯会议正式诞生，经历了多次"寒冬"和"春天"，在 2012 年深度学习崛起后进入快速发展期，2022 年 ChatGPT 发布后标志着大模型时代的全面到来。

核心关系

AI ⊃ ML ⊃ DL ⊃ LLM——人工智能是最大的范畴，机器学习是实现 AI 的主流方法，深度学习是机器学习中基于神经网络的分支，大语言模型则是深度学习在自然语言领域的集大成之作。面试中务必能准确描述这四者的包含关系。

为什么要学 AI？

角色	需要了解 AI 的原因
后端工程师	模型部署、AI 服务化、RAG Pipeline、向量数据库
前端工程师	AI 产品交互（流式渲染、聊天 UI）、接入 LLM API
全栈工程师	端到端 AI 应用开发、Prompt 工程、Agent 构建
算法工程师	模型训练、微调、评估、推理优化——核心职责
产品经理	AI 能力边界认知、需求设计、AI 产品策略

无论你的技术方向是什么，AI 已成为通用基础能力。面试中关于 AI 的问题已经从"算法岗专属"向"全栈通识"扩展。

核心知识点

机器学习的三大范式

根据数据是否带有标签，机器学习分为三大范式：

范式	数据	目标	典型任务	经典算法
监督学习	有标签（X, Y 对）	学习输入到输出的映射	分类、回归	线性回归、决策树、SVM、神经网络
无监督学习	无标签（只有 X）	发现数据内在结构	聚类、降维、异常检测	K-Means、PCA、DBSCAN、自编码器
强化学习	环境反馈（奖励信号）	学习最优策略	游戏、机器人、对话	Q-Learning、PPO、RLHF

面试考点

RLHF（基于人类反馈的强化学习） 是 ChatGPT 成功的关键技术之一——先通过监督微调让模型学会对话，再通过人类偏好数据训练奖励模型，最后用 PPO 算法让模型生成更符合人类期望的回答。这是监督学习和强化学习的结合。

偏差与方差——模型的两难困境

模型的预测误差可以分解为三部分：偏差（Bias）、方差（Variance） 和不可约误差（Irreducible Error）。

\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Error}

概念	含义	类比
高偏差	模型太简单，欠拟合	用一条直线去拟合曲线数据——学不到规律
高方差	模型太复杂，过拟合	把每个噪音点都记住了——训练集满分，测试集崩盘
最佳平衡	适当复杂度	既能捕捉规律，又不被噪音干扰

应对过拟合的常用手段：正则化（L1/L2）、Dropout、早停（Early Stopping）、数据增强、交叉验证。

模型评估——如何衡量模型好不好

不同任务使用不同的评估指标：

分类任务：

指标	公式	适用场景
Accuracy	$\frac{TP+TN}{TP+TN+FP+FN}$	类别均衡时
Precision	$\frac{TP}{TP+FP}$	关注"预测为正的有多少真正是正"（如垃圾邮件检测）
Recall	$\frac{TP}{TP+FN}$	关注"真正为正的有多少被找出来"（如癌症筛查）
F1 Score	$\frac{2 \times P \times R}{P + R}$	Precision 和 Recall 的调和平均
AUC-ROC	ROC 曲线下面积	衡量模型在不同阈值下的综合表现

回归任务：MSE（均方误差）、MAE（平均绝对误差）、 $R^2$ （决定系数）。

面试陷阱

当正负样本极度不均衡时（如 99% 负样本、1% 正样本），Accuracy 会失效——一个永远预测"负"的模型也有 99% 准确率。此时应关注 Precision、Recall、F1 或 AUC。

梯度下降——模型学习的核心引擎

梯度下降是几乎所有机器学习和深度学习模型训练的基础优化算法：

前向传播：输入数据通过模型得到预测值
计算损失：用损失函数衡量预测值和真实值的差距
反向传播：计算损失对每个参数的梯度（偏导数）
更新参数：沿梯度反方向更新参数，使损失减小

\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta L(\theta_t)

其中 $\eta$ 是学习率（Learning Rate）——太大会震荡发散，太小会收敛缓慢。

变体	特点
BGD（批量梯度下降）	使用全部数据计算梯度，稳定但慢
SGD（随机梯度下降）	每次用一个样本，快但震荡大
Mini-batch SGD	折中方案，实际最常用
Adam	自适应学习率，深度学习默认优化器

特征工程——数据决定模型的上限

"数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。"

技术	说明
特征选择	去掉无关特征（过滤法、包装法、嵌入法）
特征缩放	归一化（Min-Max）、标准化（Z-Score）
特征编码	类别特征：One-Hot、Label Encoding、Target Encoding
特征交叉	组合多个特征创建新特征
缺失值处理	均值/中位数填充、插值、删除

深度学习时代的变化

深度学习的一个革命性改变就是自动特征提取——传统 ML 需要人工设计特征，而 CNN 可以自动从图像中学习特征，Transformer 可以自动从文本中学习表征。但在表格数据场景，XGBoost + 精心设计的特征仍然是 Kaggle 冠军方案的常客。

知识体系导航

主题	核心内容	面试重要度
机器学习基本概念	训练/推理、特征/标签、损失函数、梯度下降	⭐⭐⭐⭐⭐
监督学习	分类与回归、常见算法、评估指标	⭐⭐⭐⭐⭐
无监督学习	聚类、降维、异常检测	⭐⭐⭐⭐
偏差与方差	偏差-方差权衡、过拟合/欠拟合、正则化	⭐⭐⭐⭐⭐
特征工程	特征选择、缩放、编码、交叉	⭐⭐⭐⭐
模型评估与选择	混淆矩阵、ROC/AUC、交叉验证	⭐⭐⭐⭐⭐
数据预处理	数据清洗、缺失值、异常值、数据增强	⭐⭐⭐⭐
AI 发展历程	从符号主义到 LLM、行业应用图谱	⭐⭐⭐

学习路径建议

建议顺序：先掌握本分类的基础概念 → 了解深度学习中的神经网络和 Transformer → 进入大语言模型核心知识 → 再扩展到 Prompt 工程、RAG、Agent 等应用层知识。

什么是人工智能？​

为什么要学 AI？​

核心知识点​

机器学习的三大范式​

偏差与方差——模型的两难困境​

模型评估——如何衡量模型好不好​

梯度下降——模型学习的核心引擎​

特征工程——数据决定模型的上限​

知识体系导航​

学习路径建议​

相关链接​