AI 基础知识体系概览
什么是人工智能?
人工智能(Artificial Intelligence, AI) 是一个广义概念,指让计算机模拟人类智能行为的技术——包括感知、学习、推理、决策和交互。AI 从 1956 年达特茅斯会议正式诞生,经历了多次"寒冬"和"春天",在 2012 年深度学习崛起后进入快速发展期,2022 年 ChatGPT 发布后标志着大模型时代的全面到来。
AI ⊃ ML ⊃ DL ⊃ LLM——人工智能是最大的范畴,机器学习是实现 AI 的主流方法,深度学习是机器学习中基于神经网络的分支,大语言模型则是深度学习在自然语言领域的集大成之作。面试中务必能准确描述这四者的包含关系。
为什么要学 AI?
| 角色 | 需要了解 AI 的原因 |
|---|---|
| 后端工程师 | 模型部署、AI 服务化、RAG Pipeline、向量数据库 |
| 前端工程师 | AI 产品交互(流式渲染、聊天 UI)、接入 LLM API |
| 全栈工程师 | 端到端 AI 应用开发、Prompt 工程、Agent 构建 |
| 算法工程师 | 模型训练、微调、评估、推理优化——核心职责 |
| 产品经理 | AI 能力边界认知、需求设计、AI 产品策略 |
无论你的技术方向是什么,AI 已成为通用基础能力。面试中关于 AI 的问题已经从"算法岗专属"向"全栈通识"扩展。
核心知识点
机器学习的三大范式
根据数据是否带有标签,机器学习分为三大范式:
| 范式 | 数据 | 目标 | 典型任务 | 经典算法 |
|---|---|---|---|---|
| 监督学习 | 有标签(X, Y 对) | 学习输入到输出的映射 | 分类、回归 | 线性回归、决策树、SVM、神经网络 |
| 无监督学习 | 无标签(只有 X) | 发现数据内在结构 | 聚类、降维、异常检测 | K-Means、PCA、DBSCAN、自编码器 |
| 强化学习 | 环境反馈(奖励信号) | 学习最优策略 | 游戏、机器人、对话 | Q-Learning、PPO、RLHF |
RLHF(基于人类反馈的强化学习) 是 ChatGPT 成功的关键技术之一——先通过监督微调让模型学会对话,再通过人类偏好数据训练奖励模型,最后用 PPO 算法让模型生成更符合人类期望的回答。这是监督学习和强化学习的结合。
偏差与方差——模型的两难困境
模型的预测误差可以分解为三部分:偏差(Bias)、方差(Variance) 和不可约误差(Irreducible Error)。
| 概念 | 含义 | 类比 |
|---|---|---|
| 高偏差 | 模型太简单,欠拟合 | 用一条直线去拟合曲线数据——学不到规律 |
| 高方差 | 模型太复杂,过拟合 | 把每个噪音点都记住了——训练集满分,测试集崩盘 |
| 最佳平衡 | 适当复杂度 | 既能捕捉规律,又不被噪音干扰 |
应对过拟合的常用手段:正则化(L1/L2)、Dropout、早停(Early Stopping)、数据增强、交叉验证。
模型评估——如何衡量模型好不好
不同任务使用不同的评估指标:
分类任务:
| 指标 | 公式 | 适用场景 |
|---|---|---|
| Accuracy | 类别均衡时 | |
| Precision | 关注"预测为正的有多少真正是正"(如垃圾邮件检测) | |
| Recall | 关注"真正为正的有多少被找出来"(如癌症筛查) | |
| F1 Score | Precision 和 Recall 的调和平均 | |
| AUC-ROC | ROC 曲线下面积 | 衡量模型在不同阈值下的综合表现 |
回归任务:MSE(均方误差)、MAE(平均绝对误差)、(决定系数)。
当正负样本极度不均衡时(如 99% 负样本、1% 正样本),Accuracy 会失效——一个永远预测"负"的模型也有 99% 准确率。此时应关注 Precision、Recall、F1 或 AUC。
梯度下降——模型学习的核心引擎
梯度下降是几乎所有机器学习和深度学习模型训练的基础优化算法:
- 前向传播:输入数据通过模型得到预测值
- 计算损失:用损失函数衡量预测值和真实值的差距
- 反向传播:计算损失对每个参数的梯度(偏导数)
- 更新参数:沿梯度反方向更新参数,使损失减小
其中 是学习率(Learning Rate)——太大会震荡发散,太小会收敛缓慢。
| 变体 | 特点 |
|---|---|
| BGD(批量梯度下降) | 使用全部数据计算梯度,稳定但慢 |
| SGD(随机梯度下降) | 每次用一个样本,快但震荡大 |
| Mini-batch SGD | 折中方案,实际最常用 |
| Adam | 自适应学习率,深度学习默认优化器 |
特征工程——数据决定模型的上限
"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。"
| 技术 | 说明 |
|---|---|
| 特征选择 | 去掉无关特征(过滤法、包装法、嵌入法) |
| 特征缩放 | 归一化(Min-Max)、标准化(Z-Score) |
| 特征编码 | 类别特征:One-Hot、Label Encoding、Target Encoding |
| 特征交叉 | 组合多个特征创建新特征 |
| 缺失值处理 | 均值/中位数填充、插值、删除 |
深度学习的一个革命性改变就是自动特征提取——传统 ML 需要人工设计特征,而 CNN 可以自动从图像中学习特征,Transformer 可以自动从文本中学习表征。但在表格数据场景,XGBoost + 精心设计的特征仍然是 Kaggle 冠军方案的常客。
知识体系导航
| 主题 | 核心内容 | 面试重要度 |
|---|---|---|
| 机器学习基本概念 | 训练/推理、特征/标签、损失函数、梯度下降 | ⭐⭐⭐⭐⭐ |
| 监督学习 | 分类与回归、常见算法、评估指标 | ⭐⭐⭐⭐⭐ |
| 无监督学习 | 聚类、降维、异常检测 | ⭐⭐⭐⭐ |
| 偏差与方差 | 偏差-方差权衡、过拟合/欠拟合、正则化 | ⭐⭐⭐⭐⭐ |
| 特征工程 | 特征选择、缩放、编码、交叉 | ⭐⭐⭐⭐ |
| 模型评估与选择 | 混淆矩阵、ROC/AUC、交叉验证 | ⭐⭐⭐⭐⭐ |
| 数据预处理 | 数据清洗、缺失值、异常值、数据增强 | ⭐⭐⭐⭐ |
| AI 发展历程 | 从符号主义到 LLM、行业应用图谱 | ⭐⭐⭐ |
学习路径建议
建议顺序:先掌握本分类的基础概念 → 了解深度学习中的神经网络和 Transformer → 进入大语言模型核心知识 → 再扩展到 Prompt 工程、RAG、Agent 等应用层知识。