跳到主要内容

AI 基础知识体系概览

什么是人工智能?

人工智能(Artificial Intelligence, AI) 是一个广义概念,指让计算机模拟人类智能行为的技术——包括感知、学习、推理、决策和交互。AI 从 1956 年达特茅斯会议正式诞生,经历了多次"寒冬"和"春天",在 2012 年深度学习崛起后进入快速发展期,2022 年 ChatGPT 发布后标志着大模型时代的全面到来。

核心关系

AI ⊃ ML ⊃ DL ⊃ LLM——人工智能是最大的范畴,机器学习是实现 AI 的主流方法,深度学习是机器学习中基于神经网络的分支,大语言模型则是深度学习在自然语言领域的集大成之作。面试中务必能准确描述这四者的包含关系。

为什么要学 AI?

角色需要了解 AI 的原因
后端工程师模型部署、AI 服务化、RAG Pipeline、向量数据库
前端工程师AI 产品交互(流式渲染、聊天 UI)、接入 LLM API
全栈工程师端到端 AI 应用开发、Prompt 工程、Agent 构建
算法工程师模型训练、微调、评估、推理优化——核心职责
产品经理AI 能力边界认知、需求设计、AI 产品策略

无论你的技术方向是什么,AI 已成为通用基础能力。面试中关于 AI 的问题已经从"算法岗专属"向"全栈通识"扩展。


核心知识点

机器学习的三大范式

根据数据是否带有标签,机器学习分为三大范式:

范式数据目标典型任务经典算法
监督学习有标签(X, Y 对)学习输入到输出的映射分类、回归线性回归、决策树、SVM、神经网络
无监督学习无标签(只有 X)发现数据内在结构聚类、降维、异常检测K-Means、PCA、DBSCAN、自编码器
强化学习环境反馈(奖励信号)学习最优策略游戏、机器人、对话Q-Learning、PPO、RLHF
面试考点

RLHF(基于人类反馈的强化学习) 是 ChatGPT 成功的关键技术之一——先通过监督微调让模型学会对话,再通过人类偏好数据训练奖励模型,最后用 PPO 算法让模型生成更符合人类期望的回答。这是监督学习和强化学习的结合。

偏差与方差——模型的两难困境

模型的预测误差可以分解为三部分:偏差(Bias)方差(Variance)不可约误差(Irreducible Error)

Error=Bias2+Variance+Irreducible Error\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Error}
概念含义类比
高偏差模型太简单,欠拟合用一条直线去拟合曲线数据——学不到规律
高方差模型太复杂,过拟合把每个噪音点都记住了——训练集满分,测试集崩盘
最佳平衡适当复杂度既能捕捉规律,又不被噪音干扰

应对过拟合的常用手段:正则化(L1/L2)、Dropout、早停(Early Stopping)、数据增强、交叉验证。

模型评估——如何衡量模型好不好

不同任务使用不同的评估指标:

分类任务

指标公式适用场景
AccuracyTP+TNTP+TN+FP+FN\frac{TP+TN}{TP+TN+FP+FN}类别均衡时
PrecisionTPTP+FP\frac{TP}{TP+FP}关注"预测为正的有多少真正是正"(如垃圾邮件检测)
RecallTPTP+FN\frac{TP}{TP+FN}关注"真正为正的有多少被找出来"(如癌症筛查)
F1 Score2×P×RP+R\frac{2 \times P \times R}{P + R}Precision 和 Recall 的调和平均
AUC-ROCROC 曲线下面积衡量模型在不同阈值下的综合表现

回归任务:MSE(均方误差)、MAE(平均绝对误差)、R2R^2(决定系数)。

面试陷阱

当正负样本极度不均衡时(如 99% 负样本、1% 正样本),Accuracy 会失效——一个永远预测"负"的模型也有 99% 准确率。此时应关注 Precision、Recall、F1 或 AUC。

梯度下降——模型学习的核心引擎

梯度下降是几乎所有机器学习和深度学习模型训练的基础优化算法:

  1. 前向传播:输入数据通过模型得到预测值
  2. 计算损失:用损失函数衡量预测值和真实值的差距
  3. 反向传播:计算损失对每个参数的梯度(偏导数)
  4. 更新参数:沿梯度反方向更新参数,使损失减小
θt+1=θtηθL(θt)\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta L(\theta_t)

其中 η\eta学习率(Learning Rate)——太大会震荡发散,太小会收敛缓慢。

变体特点
BGD(批量梯度下降)使用全部数据计算梯度,稳定但慢
SGD(随机梯度下降)每次用一个样本,快但震荡大
Mini-batch SGD折中方案,实际最常用
Adam自适应学习率,深度学习默认优化器

特征工程——数据决定模型的上限

"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。"

技术说明
特征选择去掉无关特征(过滤法、包装法、嵌入法)
特征缩放归一化(Min-Max)、标准化(Z-Score)
特征编码类别特征:One-Hot、Label Encoding、Target Encoding
特征交叉组合多个特征创建新特征
缺失值处理均值/中位数填充、插值、删除
深度学习时代的变化

深度学习的一个革命性改变就是自动特征提取——传统 ML 需要人工设计特征,而 CNN 可以自动从图像中学习特征,Transformer 可以自动从文本中学习表征。但在表格数据场景,XGBoost + 精心设计的特征仍然是 Kaggle 冠军方案的常客。


知识体系导航

主题核心内容面试重要度
机器学习基本概念训练/推理、特征/标签、损失函数、梯度下降⭐⭐⭐⭐⭐
监督学习分类与回归、常见算法、评估指标⭐⭐⭐⭐⭐
无监督学习聚类、降维、异常检测⭐⭐⭐⭐
偏差与方差偏差-方差权衡、过拟合/欠拟合、正则化⭐⭐⭐⭐⭐
特征工程特征选择、缩放、编码、交叉⭐⭐⭐⭐
模型评估与选择混淆矩阵、ROC/AUC、交叉验证⭐⭐⭐⭐⭐
数据预处理数据清洗、缺失值、异常值、数据增强⭐⭐⭐⭐
AI 发展历程从符号主义到 LLM、行业应用图谱⭐⭐⭐

学习路径建议

建议顺序:先掌握本分类的基础概念 → 了解深度学习中的神经网络和 Transformer → 进入大语言模型核心知识 → 再扩展到 Prompt 工程RAGAgent 等应用层知识。


相关链接