CVDL - 前言、简介
CVDL - 前言、简介
来源:B站 - 计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)
学习笔记@isSeymour
pdf 版 见本站右上角
功能 - 下载 - 文本类
起止:2024-05-04 ~ 2024-06-00
[TOC]
一、前言
本课程参考 CS231n: Convolutional Neural Networks for Visual Recognition
1.1 计算机视觉简介
-
什么是计算机视觉?
-
计算机视觉的目标
-
跨越“语义鸿沟”建立像素到语义的映射
-
图形包含哪些信息?
-
研究进展
- 动画产业
- 三维建模
- 摄影
- 生物识别
- 光学字符识别 OCR
- 谷歌地图
- 家用型机器人
- 视觉搜索
- 穿戴设备
- 无人驾驶
- 新零售
- 人机交互
- 增强现实
- 太空探索
- 医学图像
- 气象学
1.2 课程介绍
本课程聚焦于视觉识别任务中最为基础、也是最为重要的一个任务——图像分类任务。
-
视觉识别中与图像分类任务相关的任务有很多,其中比较典型的包括目标检测、图像分割、图像描述、图像生成等。
-
对于视觉识别任务而言, 目前最为有效的工具就是卷积神经网络!
卷积神经网络最早出现在1998年!
-
深度学习三要素
-
课程目标
- 了解视觉识别任务的难点与现状
- 掌握多种典型的视觉识别任务(图像分类、目标检测、图像分割等)
- 熟悉机器学习的一些基本概念,了解机器学习系统的设计流程。
- 掌握多种深度网络结构(包括全连接神经网络、卷积神经网络、循环神经网络、变分自编码网络、生成对抗网络等)
-
课程安排
二、图像分类
2.1 定义
-
图像分类任务是计算机视觉中的核心任务,
其目标是根据图像信息中所反映的不同特征,把不同类别的图像区分开来。
-
图像分类:从已知的类别标签集合中为给定的输入图片选定一个类别标签。
标签: {狗,猫,卡车,飞机,…}
2.2 难点
- 跨越“语义鸿沟”建立像素到语义的映射
- 影响因素很多:
- 视角
- 光照
- 尺度
- 遮挡
- 形变
- 背景杂波
- 类内形变
- 运动模糊
- 类别繁多
2.3 数据驱动
- 数据集构建
- 分类器设计与学习
- 分类器决策
2.4 范式
-
图像表示
- 像素表示
- 全局特征表示(如GIST)
- 局部特征表示(如SIFT特征+词袋模型)
-
分类器
- 近邻分类器
- 贝叶斯分类器
- 线性分类器
- 支撑向量机分类器
- 神经网络分类器
- 随机森林
-
损失函数
- 0-1损失
- 多类支撑向量机损失
- 交叉熵损失
-
优化方法
- 一阶方法
- 梯度下降
- 随机梯度下降
- 小批量随机梯度下降
- 二阶方法
- 牛顿法
- BFGS
- L-BFGS
- 一阶方法
-
训练过程
- 训练过程
- 数据预处理
- 数据增强
- 欠拟合与过拟合
- 减小算法复杂度
- 使用权重正则项
- 使用droput正则化
- 超参数调整
- 模型集成
-
评价指标
- 正确率(accuracy)= 分对的样本数/全部样本数
- 错误率(error rate) = 1 – 正确率
Top1指标与Top5指标
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 isSeymour!
评论