跳转至

9.5 机器学习与深度学习

机器学习(ML)和深度学习(DL)是驱动现代图像处理与计算机视觉的核心方法论。机器学习依赖手工或半自动特征设计,深度学习通过多层神经网络端到端学习特征与决策边界,是当前主流。两者的选择取决于数据量、算力资源和任务需求。


一、机器学习基础框架

1.1 监督学习流程

标注数据
    ↓ 特征工程(手工 HOG/LBP 或 CNN 提取)
特征向量
    ↓ 模型训练(SVM / 随机森林 / XGBoost)
分类器 / 回归器
    ↓ 验证集调参 → 测试集评估
性能报告

1.2 经典算法对比

算法 适用场景 优势 局限
支持向量机(SVM) 小样本、高维特征 理论完备,泛化好 多类扩展繁琐,核函数选取困难
随机森林(RF) 中等规模结构数据 鲁棒,天然特征重要性 不擅长序列/图像原始像素
XGBoost 表格数据竞赛首选 速度快,调参成熟 需要较多特征工程
k-NN 原型/少样本学习 无训练,直觉简单 推理慢,高维失效

二、深度学习基础

2.1 神经网络前向传播

一个全连接层的变换:

$$z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)}, \quad a^{(l)} = \sigma(z^{(l)})$$

其中 $\sigma$ 为激活函数(ReLU、Sigmoid、GELU 等),$W$、$b$ 为可学习参数。

2.2 训练:反向传播与梯度下降

通过链式法则将损失 $\mathcal{L}$ 对每一层参数求偏导,再用梯度下降更新:

$$W \leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W}$$

常用优化器:

优化器 特点
SGD + Momentum 稳定但需仔细调学习率
Adam 自适应学习率,收敛快,最常用
AdamW Adam + 权重衰减解耦,Transformer 首选
LARS / LAMB 大 batch 分布式训练专用

2.3 关键超参数

超参数 典型值 影响
学习率 $\eta$ 1e-4 ~ 1e-2 最敏感,需热身(Warmup)+ 衰减
Batch Size 32 ~ 512 影响梯度噪声和显存占用
正则化(Dropout, WD) 0.1~0.5 / 1e-4 防过拟合
训练轮数(Epoch) 50~300 配合 Early Stopping

三、卷积神经网络(CNN)

3.1 卷积层原理

$$O(i,j) = \sum_m \sum_n I(i+m, j+n) \cdot K(m,n)$$

卷积核 $K$ 学习局部感受野内的空间特征,共享权重大幅减少参数量。

3.2 关键组件

Conv → BN → ReLU → Pool(反复堆叠)→ Global Avg Pool → FC → Softmax
  • 批归一化(BN):加速收敛,减少对初始化敏感性
  • 残差连接(ResNet):$y = F(x) + x$,允许训练极深网络(100+ 层)
  • 深度可分离卷积(MobileNet):通道卷积 + 点卷积解耦,大幅降低算力

四、Transformer 与注意力机制

4.1 自注意力(Self-Attention)

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$$

每个位置(Token)与全部位置交互,全局感受野;代价是计算复杂度 $O(N^2)$,对长序列代价高。

4.2 视觉 Transformer(ViT)

将图像切成 $16 \times 16$ 的 Patch,线性投影后当作 Token 输入标准 Transformer,实验证明大数据下性能超越 CNN。MAE(Masked Autoencoder)等自监督预训练方式进一步释放 ViT 潜力。


五、损失函数

任务 常用损失函数
分类 交叉熵(Cross-Entropy)
目标检测 Focal Loss(应对类别不均衡)
回归 MSE、Smooth L1(Huber Loss)
分割 Dice Loss + BCE 联合
生成模型 GAN 对抗损失 + 感知损失

六、过拟合与正则化

方法 机制 使用场景
Dropout 训练时随机丢弃神经元 FC 层,率先尝试 0.3~0.5
权重衰减(L2) 参数惩罚项 几乎所有场景
数据增广 扩充有效样本多样性 小数据集必备(见 9.7)
早停(Early Stopping) 验证集不再提升则停止 防止训练过久
标签平滑(Label Smoothing) 软化 one-hot 标签 分类任务,防过拟合

参考资料

  • Goodfellow et al., Deep Learning, MIT Press, 2016
  • He et al., \"Deep Residual Learning for Image Recognition\", CVPR, 2016
  • Vaswani et al., \"Attention Is All You Need\", NeurIPS, 2017

更新时间

2026-03-03