CVDL - 循环神经网络
十、循环神经网络
10.1 RNN
引入
几种形式
- 基本形式
- 更深
- 两种网络设计
- Elman Network
- Jordan Network
-
双向设计
Bidirectional RNN
10.2 LSTM
定义
- 函数示意图:
工作流程
单个神经元工作流程:
RNN工作流程:
训练问题
- 很不幸,往往RNN训练过程中,反向传播的梯度是并不平滑的,很任意梯度消失或者梯度爆炸。
-
为什么会这样?
太多的连乘!
-
控制方法:学习率的控制(太大则设置只能为xx,太小为xxx)
LSTM优势
- LSTM本身可以解决上述的训练问题。
10.3 更多应用
Many to One
Many to Many (Output is shorter)
Many to Many (No Limitation)
10.4 注意力机制
定义
示例1:机器翻译
示例2:图像捕获
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 isSeymour!
评论