CVDL - 前言、简介

来源:B站 - 计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)

学习笔记@isSeymour

pdf 版 见本站右上角 功能 - 下载 - 文本类

起止:2024-05-04 ~ 2024-06-00

[TOC]

一、前言

本课程参考 CS231n: Convolutional Neural Networks for Visual Recognition

1.1 计算机视觉简介

  • 什么是计算机视觉?

C1-1
  • 计算机视觉的目标

  • 跨越“语义鸿沟”建立像素到语义的映射

C1-2
  • 图形包含哪些信息?

C1-3
  • 研究进展

  1. 动画产业
  2. 三维建模
  3. 摄影
  4. 生物识别
  5. 光学字符识别 OCR
  6. 谷歌地图
  7. 家用型机器人
  8. 视觉搜索
  9. 穿戴设备
  10. 无人驾驶
  11. 新零售
  12. 人机交互
  13. 增强现实
  14. 太空探索
  15. 医学图像
  16. 气象学

1.2 课程介绍

本课程聚焦于视觉识别任务中最为基础、也是最为重要的一个任务——图像分类任务。

  • 视觉识别中与图像分类任务相关的任务有很多,其中比较典型的包括目标检测、图像分割、图像描述、图像生成等。

  • 对于视觉识别任务而言, 目前最为有效的工具就是卷积神经网络

    卷积神经网络最早出现在1998年!

  • 深度学习三要素

C1-5
  • 课程目标

    • 了解视觉识别任务的难点与现状
    • 掌握多种典型的视觉识别任务(图像分类、目标检测、图像分割等)
    • 熟悉机器学习的一些基本概念,了解机器学习系统的设计流程。
    • 掌握多种深度网络结构(包括全连接神经网络、卷积神经网络、循环神经网络、变分自编码网络、生成对抗网络等)
  • 课程安排

    C1-6

二、图像分类

2.1 定义

  • 图像分类任务是计算机视觉中的核心任务,

    其目标是根据图像信息中所反映的不同特征,把不同类别的图像区分开来。

  • 图像分类:从已知的类别标签集合中为给定的输入图片选定一个类别标签

    标签: {狗,猫,卡车,飞机,…}

2.2 难点

  • 跨越“语义鸿沟”建立像素到语义的映射
  • 影响因素很多:
    1. 视角
    2. 光照
    3. 尺度
    4. 遮挡
    5. 形变
    6. 背景杂波
    7. 类内形变
    8. 运动模糊
    9. 类别繁多

2.3 数据驱动

  1. 数据集构建
  2. 分类器设计与学习
  3. 分类器决策
C1-7

2.4 范式

C1-7-2
  • 图像表示

    • 像素表示
    • 全局特征表示(如GIST)
    • 局部特征表示(如SIFT特征+词袋模型)
  • 分类器

    • 近邻分类器
    • 贝叶斯分类器
    • 线性分类器
    • 支撑向量机分类器
    • 神经网络分类器
    • 随机森林
  • 损失函数

    • 0-1损失
    • 多类支撑向量机损失
    • 交叉熵损失
  • 优化方法

    • 一阶方法
      1. 梯度下降
      2. 随机梯度下降
      3. 小批量随机梯度下降
    • 二阶方法
      1. 牛顿法
      2. BFGS
      3. L-BFGS
  • 训练过程

    • 训练过程
    • 数据预处理
    • 数据增强
    • 欠拟合与过拟合
      • 减小算法复杂度
      • 使用权重正则项
      • 使用droput正则化
    • 超参数调整
    • 模型集成
  • 评价指标

    • 正确率(accuracy)= 分对的样本数/全部样本数
    • 错误率(error rate) = 1 – 正确率

    Top1指标与Top5指标