9.3 图像分割与特征提取¶

图像分割将图像划分为具有语义意义的区域，特征提取则从图像或区域中提取可量化的描述符，两者共同为目标识别、计数、定位等任务提供结构化输入。

一、图像分割概述¶

最简单的分割方式，根据灰度值判断像素归属：

$$T^* = \arg\max_T \left[ \sigma_b^2(T) \right] = \arg\max_T \left[ w_0 w_1 (\mu_0 - \mu_1)^2 \right]$$

从种子像素出发，将满足相似性准则（灰度差、纹理、颜色距离）的相邻像素合并到同一区域，直到无法扩展为止。适合目标有明确内部均匀区域的场景（如 MRI 器官分割早期方法）。

将图像梯度视为地形高度图，模拟注水过程，从极小值点填充，相邻极小值的汇集边界形成分割线。常与标记（Marker）结合使用，防止过分割。

结合高斯混合模型（GMM）和图割（Graph Cut），用户用矩形框大致圈定目标后迭代前景/背景建模，实现半自动精细分割。

输入图→ [编码器 (下采样)] → 瓶颈特征 → [解码器 (上采样)] → 分割掩模
              ↑__________跳跃连接（Skip Connection）________↑

卷积网络各层特征含义：

浅层（Conv1-2）：边缘、角点、颜色
中层（Conv3-4）：纹理、局部形状
深层（Conv5+） ：语义概念、类别相关

工程中通常截取深层特征用于分类，浅层特征用于精细分割/检测（特征金字塔 FPN）。

P5 ← C5
P4 ← C4 + 上采样(P5)
P3 ← C3 + 上采样(P4)
P2 ← C2 + 上采样(P3)

多尺度特征融合，使检测器同时对大目标（深层）和小目标（浅层）敏感。

Ronneberger et al., \"U-Net: Convolutional Networks for Biomedical Image Segmentation\", MICCAI, 2015
Kirillov et al., \"Segment Anything\", ICCV, 2023
Lin et al., \"Feature Pyramid Networks for Object Detection\", CVPR, 2017

2026-03-03