CVDL - 视觉识别
七、视觉识别
 
7.1 分类
- 前面讲的都是
 - 从
- 线性分类器
 - 全连接神经网络
 - 卷积神经网络
 
 
7.2 语义分割
- 给每个像素分配类别标签不区分实例,只考虑像素类别
 
 
滑动窗口
- 
问题
效率太低!重叠区域的特征反复被计算。
 
 
全卷积
- 
解决方案
让整个网络只包含卷积层,一次性输出所有像素的类别预测。
 - 
问题
处理过程中一直保持原始分辨率,对于显存的需求会非常庞大。
 
 
- 
解决方案
让整个网络只包含卷积层,并在网络中嵌入下采样与上采样过程。
 
 
反池化操作
 
 
转置卷积
- 
可学习的上采样
转置卷积(Transpose Convolution)
 
 
- 操作
 
 
 
 
7.3 目标检测
单目标
- 
单目标(分类+定位)
将定位任务建模为回归问题!
采用多任务损失。
 
 
前面 常使用在ImageNet上预训练的模型 (迁移学习)
多目标
- 
困境
每张图像期望输出的维度都不一样!
 
 
- 
寻找区域
利用CNN对图像中的区域进行多分类,以确定当前区域是背景还是哪个类别的目标。
 
 
- 
困境:
CNN需要对图像中所有可能的区域(不同位置、尺寸、长宽比)进行分类,计算量巨大!
 
区域建议
 
R-CNN
- 
想法
在特征图上进行区域扣取
 - 
问题
计算效率低下!
每一张图像大约有2k个区域需要卷积网络进行特征提取,重叠区域反复计算。
 
 
- 
改进
裁剪+缩放特征
 
 
- 两种区域裁剪
 ![]()
![]()
Faster R-CNN
- 
还不够快
候选区域产生过程耗时过高,几乎等于单张图片的检测时间。
 
 
- ”锚点“ 区域裁剪
 ![]()
- 二段的网络
 
 
- 利用卷积网络产生候选区域!
 - 四种损失联合训练:
 
- RPN分类损失(目标/非目标)
 - RPN边界框坐标回归损失
 - 候选区域分类损失
 - 最终边界框坐标回归损失
 ![]()
影响因素
 
7.4 实例分割
Mask R-CNN
- 添加一个小型 mask 网络,在每个RoI上运行
 
 
 
- 效果
 
 
 
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 isSeymour!
 评论

 
 
 
 
 




