CVDL - Transformer
十一、Transformer
11.1 架构
RNN困境

T-1-1
Transformer 提出

T-1-2
架构

T-1-3
11.2 输入输出
输入输出

T-2-1
嵌入 PE 位置编码
- 位置编码

T-2-5
编码解码

T-2-3
11.3 多头注意力
编码器

T-2-4
T-3-0
注意力计算

T-3-1
矩阵合并表示

T-3-3
多头
- 并行地计算多个 Z ,最后使用 W 综合效果即可。

T-3-4
计算过程:
T-3-5头数推导:
T-3-6
11.4 ADD&Norm

T-4-1
区分不同的Norm:
T-4-2
11.5 前馈网络

T-5-1
11.6 解码器

T-6-1

T-6-2
11.7 图像领域
自监督学习
-
使用无标注数据用自我监督的方式学习特征表示的方法。
其通过构造一个代理任务(pretext task)来实现特征表示学习。
-
代理任务
- 预测类任务
- 生成式任务
- 对比学习任务
- …
代理任务的监督信息来源是从数据本身获得的。
-
举例
完型填空(BERT)、预测下一个单词(GPT)
典型用法:通过自监督学习完成特征提取器的预训练,然后,在下游任务上进行微调。
发展

T-7-1
Non-Local
-
问题
卷积操作难以捕捉长距离依赖(卷积的做法是不断堆积更多层,从而获得更大的感受野)
-
破解之法
卷积网络 + Non-Local 模块(注意力机制)

T-7-2
ViT
-
CNN在 图像领域 的统治地位
-
Transformer在 自然语言处理 领域如此成功
-
Transformer在 图像领域 也可以获得与CNN相当甚至更高的精度
虽然缺少局部性与平移性的归纳偏置需要大量的数据进行训练

T-7-3

T-7-4
MAE
- 提出一个非对称的编解码器网络
- 自监督学习,采用高比率的遮挡预测任务作为代理任务
- lmagenet-1K上训练达到了87.8%,且在检测、分割等任务上均达到了SOTA
- 训练过程快

T-7-5
- 效果
T-7-6T-7-7T-7-8
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 isSeymour!
评论