9.6 常见视觉模型¶

视觉领域的骨干网络（Backbone）和任务模型经过多年迭代，形成了相对稳定的主流体系。理解各类模型的结构特点和适用边界，是选型和落地的前提。

一、图像分类模型¶

1.1 演进脉络¶

AlexNet（2012）→ VGG（2014）→ GoogLeNet/Inception（2014）→ ResNet（2015）
    → DenseNet（2016）→ SENet（2017）→ EfficientNet（2019）→ ViT（2020）
    → ConvNeXt（2022）→ DeiT3 / EVA 等

1.2 典型模型对比¶

模型	Top-1（ImageNet）	参数量	特点
ResNet-50	~76%	25 M	残差连接，经典基线
EfficientNet-B4	~83%	19 M	复合缩放，精度/效率均衡
ViT-B/16	~81%（无预训练）	86 M	全注意力，大数据优势明显
ConvNeXt-T	~82%	28 M	现代化 CNN，与 ViT 对标
DeiT-III-B	~85%	86 M	数据增广弥补 ViT 数据需求

二、目标检测模型¶

2.1 两阶段检测¶

输入图 → 骨干网络 → RPN（候选框生成）→ ROI Pooling → 分类 + 回归头

Faster R-CNN：RPN 共享特征图，精度高，适合离线检测
Mask R-CNN：在 Faster R-CNN 基础上加掩模分支，同时输出实例分割

2.2 单阶段检测¶

输入图 → 骨干网络 → FPN → 每格预测框 + 置信度 + 类别（无候选区步骤）

模型系列	特点	适用场景
YOLO（v5/v8/v9）	极快，工程友好	实时视频检测，嵌入式
SSD	多尺度锚框，早期单阶段代表	轻量化场景
RetinaNet	Focal Loss 解决类别不均衡	小目标密集场景
DETR / RT-DETR	无锚框，Transformer 解码器	通用检测，端到端

2.3 后处理：非极大值抑制（NMS）¶

检测头输出大量重叠框，NMS 保留置信度最高框，抑制 IoU 超阈值的冗余框：

按置信度降序排列 → 取最高分框加入结果集
    → 计算其与剩余框的 IoU → 删除 IoU > 阈值的框
    → 重复直到框集为空

Soft-NMS 将抑制改为分数衰减，减少漏检。

三、目标跟踪模型¶

类别	代表算法	原理	特点
相关滤波	KCF、MOSSE	频域相关响应	快速，单目标
Siamese 网络	SiamFC、SiamRPN	模板匹配	精度高，适应外观变化
Transformer 跟踪	TransT、OSTrack	注意力融合	SOTA，多目标泛化强
多目标跟踪（MOT）	ByteTrack、OC-SORT	检测 + 卡尔曼 + 匹配	工业落地主流

四、生成模型¶

4.1 生成对抗网络（GAN）¶

生成器 G：噪声 z → 生成图像
判别器 D：图像 → 真/假概率
训练目标：min_G max_D  E[log D(x)] + E[log(1-D(G(z)))]

代表应用：图像超分辨率（ESRGAN）、风格迁移（CycleGAN）、人脸生成（StyleGAN3）

4.2 扩散模型（Diffusion Model）¶

在前向过程逐步加高斯噪声，训练网络学习逆过程（去噪）：

代表：DDPM、Stable Diffusion（LDM）
在生成质量上超越 GAN，且训练更稳定；缺点是采样步数多、速度慢（DDIM 等加速采样解决）

五、轻量化与边缘部署模型¶

模型	策略	目标硬件
MobileNetV3	深度可分离卷积 + NAS	ARM 移动端
ShuffleNetV2	通道shuffle + 分组卷积	ARM / NPU
RepVGG	训练多分支，推理重参数化为单卷积	通用工业相机
YOLO-NAS	NAS 搜索块结构	嵌入式实时检测

六、模型选型建议¶

首先确认任务类型（分类/检测/分割/生成）
    ↓
评估推理硬件（GPU服务器 / NPU / ARM CPU）
    ↓
确认数据量和标注成本（小数据→迁移学习，大数据→从头训练）
    ↓
先选精度高的基线（如 ResNet50、YOLOv8m）测量瓶颈
    ↓
再按延迟/显存要求向轻量化方向替换

参考资料¶

YOLO 官方仓库：https://github.com/ultralytics/ultralytics
Carion et al., \"End-to-End Object Detection with Transformers (DETR)\", ECCV, 2020
Ho et al., \"Denoising Diffusion Probabilistic Models\", NeurIPS, 2020

更新时间¶

2026-03-03