9.5 机器学习与深度学习¶
机器学习(ML)和深度学习(DL)是驱动现代图像处理与计算机视觉的核心方法论。机器学习依赖手工或半自动特征设计,深度学习通过多层神经网络端到端学习特征与决策边界,是当前主流。两者的选择取决于数据量、算力资源和任务需求。
一、机器学习基础框架¶
1.1 监督学习流程¶
1.2 经典算法对比¶
| 算法 | 适用场景 | 优势 | 局限 |
|---|---|---|---|
| 支持向量机(SVM) | 小样本、高维特征 | 理论完备,泛化好 | 多类扩展繁琐,核函数选取困难 |
| 随机森林(RF) | 中等规模结构数据 | 鲁棒,天然特征重要性 | 不擅长序列/图像原始像素 |
| XGBoost | 表格数据竞赛首选 | 速度快,调参成熟 | 需要较多特征工程 |
| k-NN | 原型/少样本学习 | 无训练,直觉简单 | 推理慢,高维失效 |
二、深度学习基础¶
2.1 神经网络前向传播¶
一个全连接层的变换:
$$z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)}, \quad a^{(l)} = \sigma(z^{(l)})$$
其中 $\sigma$ 为激活函数(ReLU、Sigmoid、GELU 等),$W$、$b$ 为可学习参数。
2.2 训练:反向传播与梯度下降¶
通过链式法则将损失 $\mathcal{L}$ 对每一层参数求偏导,再用梯度下降更新:
$$W \leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W}$$
常用优化器:
| 优化器 | 特点 |
|---|---|
| SGD + Momentum | 稳定但需仔细调学习率 |
| Adam | 自适应学习率,收敛快,最常用 |
| AdamW | Adam + 权重衰减解耦,Transformer 首选 |
| LARS / LAMB | 大 batch 分布式训练专用 |
2.3 关键超参数¶
| 超参数 | 典型值 | 影响 |
|---|---|---|
| 学习率 $\eta$ | 1e-4 ~ 1e-2 | 最敏感,需热身(Warmup)+ 衰减 |
| Batch Size | 32 ~ 512 | 影响梯度噪声和显存占用 |
| 正则化(Dropout, WD) | 0.1~0.5 / 1e-4 | 防过拟合 |
| 训练轮数(Epoch) | 50~300 | 配合 Early Stopping |
三、卷积神经网络(CNN)¶
3.1 卷积层原理¶
$$O(i,j) = \sum_m \sum_n I(i+m, j+n) \cdot K(m,n)$$
卷积核 $K$ 学习局部感受野内的空间特征,共享权重大幅减少参数量。
3.2 关键组件¶
- 批归一化(BN):加速收敛,减少对初始化敏感性
- 残差连接(ResNet):$y = F(x) + x$,允许训练极深网络(100+ 层)
- 深度可分离卷积(MobileNet):通道卷积 + 点卷积解耦,大幅降低算力
四、Transformer 与注意力机制¶
4.1 自注意力(Self-Attention)¶
$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$$
每个位置(Token)与全部位置交互,全局感受野;代价是计算复杂度 $O(N^2)$,对长序列代价高。
4.2 视觉 Transformer(ViT)¶
将图像切成 $16 \times 16$ 的 Patch,线性投影后当作 Token 输入标准 Transformer,实验证明大数据下性能超越 CNN。MAE(Masked Autoencoder)等自监督预训练方式进一步释放 ViT 潜力。
五、损失函数¶
| 任务 | 常用损失函数 |
|---|---|
| 分类 | 交叉熵(Cross-Entropy) |
| 目标检测 | Focal Loss(应对类别不均衡) |
| 回归 | MSE、Smooth L1(Huber Loss) |
| 分割 | Dice Loss + BCE 联合 |
| 生成模型 | GAN 对抗损失 + 感知损失 |
六、过拟合与正则化¶
| 方法 | 机制 | 使用场景 |
|---|---|---|
| Dropout | 训练时随机丢弃神经元 | FC 层,率先尝试 0.3~0.5 |
| 权重衰减(L2) | 参数惩罚项 | 几乎所有场景 |
| 数据增广 | 扩充有效样本多样性 | 小数据集必备(见 9.7) |
| 早停(Early Stopping) | 验证集不再提升则停止 | 防止训练过久 |
| 标签平滑(Label Smoothing) | 软化 one-hot 标签 | 分类任务,防过拟合 |
参考资料¶
- Goodfellow et al., Deep Learning, MIT Press, 2016
- He et al., \"Deep Residual Learning for Image Recognition\", CVPR, 2016
- Vaswani et al., \"Attention Is All You Need\", NeurIPS, 2017
更新时间¶
2026-03-03