9.3 图像分割与特征提取¶
图像分割将图像划分为具有语义意义的区域,特征提取则从图像或区域中提取可量化的描述符,两者共同为目标识别、计数、定位等任务提供结构化输入。
一、图像分割概述¶
1.1 分割类型¶
| 分割类型 | 粒度 | 输出形式 | 典型应用 |
|---|---|---|---|
| 语义分割(Semantic Seg) | 像素类别 | 类别掩模 | 道路检测、植被识别 |
| 实例分割(Instance Seg) | 像素 + 实例 ID | 每个对象掩模 | 工业缺陷数量统计 |
| 全景分割(Panoptic Seg) | 语义 + 实例 | 统一掩模 | 场景理解 |
| 目标检测(Detection) | 矩形框 | Bounding Box + 类别 | 快速目标定位 |
二、传统分割方法¶
2.1 阈值分割¶
最简单的分割方式,根据灰度值判断像素归属:
- 全局阈值(Otsu 法):最大化类间方差自动求解最优阈值 $T^*$
- 自适应阈值:每个像素邻域独立计算局部阈值,应对不均匀光照
$$T^* = \arg\max_T \left[ \sigma_b^2(T) \right] = \arg\max_T \left[ w_0 w_1 (\mu_0 - \mu_1)^2 \right]$$
2.2 区域生长¶
从种子像素出发,将满足相似性准则(灰度差、纹理、颜色距离)的相邻像素合并到同一区域,直到无法扩展为止。适合目标有明确内部均匀区域的场景(如 MRI 器官分割早期方法)。
2.3 分水岭算法¶
将图像梯度视为地形高度图,模拟注水过程,从极小值点填充,相邻极小值的汇集边界形成分割线。常与标记(Marker)结合使用,防止过分割。
2.4 GrabCut¶
结合高斯混合模型(GMM)和图割(Graph Cut),用户用矩形框大致圈定目标后迭代前景/背景建模,实现半自动精细分割。
三、深度学习分割方法¶
3.1 编解码结构(Encoder-Decoder)¶
- U-Net:医学图像分割经典,跳跃连接融合多尺度特征
- SegNet:编码器池化索引传入解码器,轻量化
- DeepLab 系列:使用空洞卷积(Dilated Conv)扩大感受野,ASPP 多尺度聚合
3.2 Transformer 分割¶
- SETR / SegFormer:以 ViT 作为主干,全局注意力建模长距离依赖
- Mask2Former:统一架构同时支持语义、实例、全景三种任务
3.3 交互式与提示式分割¶
- SAM(Segment Anything Model):输入点、框或文本提示,零样本分割任意目标,适合快速标注和泛化场景
四、特征提取¶
4.1 手工特征¶
| 特征 | 描述 | 适用场景 |
|---|---|---|
| HOG(梯度方向直方图) | 统计局部梯度方向分布 | 行人检测 |
| LBP(局部二值模式) | 编码像素邻域纹理 | 纹理分类 |
| SIFT | 尺度不变关键点描述符 | 图像匹配、配准 |
| ORB | 快速二进制描述符 | 实时匹配 |
| Hu 矩 | 形状不变矩 | 形状分类 |
4.2 深度特征(CNN)¶
卷积网络各层特征含义:
工程中通常截取深层特征用于分类,浅层特征用于精细分割/检测(特征金字塔 FPN)。
4.3 特征金字塔(FPN)¶
多尺度特征融合,使检测器同时对大目标(深层)和小目标(浅层)敏感。
五、分割评价指标¶
| 指标 | 公式 | 说明 |
|---|---|---|
| Pixel Accuracy | $\frac{TP+TN}{全部像素}$ | 类别不均时失真 |
| mIoU | $\frac{1}{C}\sum\frac{TP_c}{TP_c+FP_c+FN_c}$ | 分割标准指标 |
| Dice 系数 | $\frac{2TP}{2TP+FP+FN}$ | 医学分割常用 |
| Boundary F1 | 边界像素 P/R 调和均值 | 评估边界精度 |
参考资料¶
- Ronneberger et al., \"U-Net: Convolutional Networks for Biomedical Image Segmentation\", MICCAI, 2015
- Kirillov et al., \"Segment Anything\", ICCV, 2023
- Lin et al., \"Feature Pyramid Networks for Object Detection\", CVPR, 2017
更新时间¶
2026-03-03