9.6 常见视觉模型¶
视觉领域的骨干网络(Backbone)和任务模型经过多年迭代,形成了相对稳定的主流体系。理解各类模型的结构特点和适用边界,是选型和落地的前提。
一、图像分类模型¶
1.1 演进脉络¶
AlexNet(2012)→ VGG(2014)→ GoogLeNet/Inception(2014)→ ResNet(2015)
→ DenseNet(2016)→ SENet(2017)→ EfficientNet(2019)→ ViT(2020)
→ ConvNeXt(2022)→ DeiT3 / EVA 等
1.2 典型模型对比¶
| 模型 | Top-1(ImageNet) | 参数量 | 特点 |
|---|---|---|---|
| ResNet-50 | ~76% | 25 M | 残差连接,经典基线 |
| EfficientNet-B4 | ~83% | 19 M | 复合缩放,精度/效率均衡 |
| ViT-B/16 | ~81%(无预训练) | 86 M | 全注意力,大数据优势明显 |
| ConvNeXt-T | ~82% | 28 M | 现代化 CNN,与 ViT 对标 |
| DeiT-III-B | ~85% | 86 M | 数据增广弥补 ViT 数据需求 |
二、目标检测模型¶
2.1 两阶段检测¶
- Faster R-CNN:RPN 共享特征图,精度高,适合离线检测
- Mask R-CNN:在 Faster R-CNN 基础上加掩模分支,同时输出实例分割
2.2 单阶段检测¶
| 模型系列 | 特点 | 适用场景 |
|---|---|---|
| YOLO(v5/v8/v9) | 极快,工程友好 | 实时视频检测,嵌入式 |
| SSD | 多尺度锚框,早期单阶段代表 | 轻量化场景 |
| RetinaNet | Focal Loss 解决类别不均衡 | 小目标密集场景 |
| DETR / RT-DETR | 无锚框,Transformer 解码器 | 通用检测,端到端 |
2.3 后处理:非极大值抑制(NMS)¶
检测头输出大量重叠框,NMS 保留置信度最高框,抑制 IoU 超阈值的冗余框:
Soft-NMS 将抑制改为分数衰减,减少漏检。
三、目标跟踪模型¶
| 类别 | 代表算法 | 原理 | 特点 |
|---|---|---|---|
| 相关滤波 | KCF、MOSSE | 频域相关响应 | 快速,单目标 |
| Siamese 网络 | SiamFC、SiamRPN | 模板匹配 | 精度高,适应外观变化 |
| Transformer 跟踪 | TransT、OSTrack | 注意力融合 | SOTA,多目标泛化强 |
| 多目标跟踪(MOT) | ByteTrack、OC-SORT | 检测 + 卡尔曼 + 匹配 | 工业落地主流 |
四、生成模型¶
4.1 生成对抗网络(GAN)¶
代表应用:图像超分辨率(ESRGAN)、风格迁移(CycleGAN)、人脸生成(StyleGAN3)
4.2 扩散模型(Diffusion Model)¶
在前向过程逐步加高斯噪声,训练网络学习逆过程(去噪):
- 代表:DDPM、Stable Diffusion(LDM)
- 在生成质量上超越 GAN,且训练更稳定;缺点是采样步数多、速度慢(DDIM 等加速采样解决)
五、轻量化与边缘部署模型¶
| 模型 | 策略 | 目标硬件 |
|---|---|---|
| MobileNetV3 | 深度可分离卷积 + NAS | ARM 移动端 |
| ShuffleNetV2 | 通道shuffle + 分组卷积 | ARM / NPU |
| RepVGG | 训练多分支,推理重参数化为单卷积 | 通用工业相机 |
| YOLO-NAS | NAS 搜索块结构 | 嵌入式实时检测 |
六、模型选型建议¶
首先确认任务类型(分类/检测/分割/生成)
↓
评估推理硬件(GPU服务器 / NPU / ARM CPU)
↓
确认数据量和标注成本(小数据→迁移学习,大数据→从头训练)
↓
先选精度高的基线(如 ResNet50、YOLOv8m)测量瓶颈
↓
再按延迟/显存要求向轻量化方向替换
参考资料¶
- YOLO 官方仓库:https://github.com/ultralytics/ultralytics
- Carion et al., \"End-to-End Object Detection with Transformers (DETR)\", ECCV, 2020
- Ho et al., \"Denoising Diffusion Probabilistic Models\", NeurIPS, 2020
更新时间¶
2026-03-03