跳转至

汇睿光电知识库

机器学习与深度学习

9.5 机器学习与深度学习¶

机器学习（ML）和深度学习（DL）是驱动现代图像处理与计算机视觉的核心方法论。机器学习依赖手工或半自动特征设计，深度学习通过多层神经网络端到端学习特征与决策边界，是当前主流。两者的选择取决于数据量、算力资源和任务需求。

一、机器学习基础框架¶

1.1 监督学习流程¶

标注数据
    ↓ 特征工程（手工 HOG/LBP 或 CNN 提取）
特征向量
    ↓ 模型训练（SVM / 随机森林 / XGBoost）
分类器 / 回归器
    ↓ 验证集调参 → 测试集评估
性能报告

1.2 经典算法对比¶

算法	适用场景	优势	局限
支持向量机（SVM）	小样本、高维特征	理论完备，泛化好	多类扩展繁琐，核函数选取困难
随机森林（RF）	中等规模结构数据	鲁棒，天然特征重要性	不擅长序列/图像原始像素
XGBoost	表格数据竞赛首选	速度快，调参成熟	需要较多特征工程
k-NN	原型/少样本学习	无训练，直觉简单	推理慢，高维失效

二、深度学习基础¶

2.1 神经网络前向传播¶

一个全连接层的变换：

$$z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)}, \quad a^{(l)} = \sigma(z^{(l)})$$

其中 $\sigma$ 为激活函数（ReLU、Sigmoid、GELU 等），$W$、$b$ 为可学习参数。

2.2 训练：反向传播与梯度下降¶

通过链式法则将损失 $\mathcal{L}$ 对每一层参数求偏导，再用梯度下降更新：

$$W \leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W}$$

常用优化器：

优化器	特点
SGD + Momentum	稳定但需仔细调学习率
Adam	自适应学习率，收敛快，最常用
AdamW	Adam + 权重衰减解耦，Transformer 首选
LARS / LAMB	大 batch 分布式训练专用

2.3 关键超参数¶

超参数	典型值	影响
学习率 $\eta$	1e-4 ~ 1e-2	最敏感，需热身（Warmup）+ 衰减
Batch Size	32 ~ 512	影响梯度噪声和显存占用
正则化（Dropout, WD）	0.1~0.5 / 1e-4	防过拟合
训练轮数（Epoch）	50~300	配合 Early Stopping

三、卷积神经网络（CNN）¶

3.1 卷积层原理¶

$$O(i,j) = \sum_m \sum_n I(i+m, j+n) \cdot K(m,n)$$

卷积核 $K$ 学习局部感受野内的空间特征，共享权重大幅减少参数量。

3.2 关键组件¶

Conv → BN → ReLU → Pool（反复堆叠）→ Global Avg Pool → FC → Softmax

批归一化（BN）：加速收敛，减少对初始化敏感性
残差连接（ResNet）：$y = F(x) + x$，允许训练极深网络（100+ 层）
深度可分离卷积（MobileNet）：通道卷积 + 点卷积解耦，大幅降低算力

四、Transformer 与注意力机制¶

4.1 自注意力（Self-Attention）¶

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$$

每个位置（Token）与全部位置交互，全局感受野；代价是计算复杂度 $O(N^2)$，对长序列代价高。

4.2 视觉 Transformer（ViT）¶

将图像切成 $16 \times 16$ 的 Patch，线性投影后当作 Token 输入标准 Transformer，实验证明大数据下性能超越 CNN。MAE（Masked Autoencoder）等自监督预训练方式进一步释放 ViT 潜力。

五、损失函数¶

任务	常用损失函数
分类	交叉熵（Cross-Entropy）
目标检测	Focal Loss（应对类别不均衡）
回归	MSE、Smooth L1（Huber Loss）
分割	Dice Loss + BCE 联合
生成模型	GAN 对抗损失 + 感知损失

六、过拟合与正则化¶

方法	机制	使用场景
Dropout	训练时随机丢弃神经元	FC 层，率先尝试 0.3~0.5
权重衰减（L2）	参数惩罚项	几乎所有场景
数据增广	扩充有效样本多样性	小数据集必备（见 9.7）
早停（Early Stopping）	验证集不再提升则停止	防止训练过久
标签平滑（Label Smoothing）	软化 one-hot 标签	分类任务，防过拟合

参考资料¶

Goodfellow et al., Deep Learning, MIT Press, 2016
He et al., \"Deep Residual Learning for Image Recognition\", CVPR, 2016
Vaswani et al., \"Attention Is All You Need\", NeurIPS, 2017

更新时间¶

2026-03-03