CVDL - Transformer

发表于2024-06-02|更新于2024-06-02|机器学习

|字数总计:529|阅读时长:1分钟|阅读量:

十一、Transformer

11.1 架构

RNN困境

T-1-1

Transformer 提出

T-1-2

架构

T-1-3

11.2 输入输出

输入输出

T-2-1

嵌入 PE 位置编码

位置编码

输入还需要经过一个PE（检测位置信息）

如“我爱中国”和“爱我中国”不应该一样，但是若没有PE层，则会使得输入变得一样效果。

T-2-5

编码解码

T-2-3

11.3 多头注意力

编码器

T-2-4

注意力计算

T-3-1

计算方法

下图为计算一个 x1得到 z1 的过程。

矩阵合并表示

T-3-3

多头

并行地计算多个 Z ，最后使用 W 综合效果即可。

T-3-4

计算过程：

头数推导：

11.4 ADD&Norm

T-4-1

区分不同的Norm：

11.5 前馈网络

T-5-1

11.6 解码器

T-6-1

T-6-2

11.7 图像领域

自监督学习

使用无标注数据用自我监督的方式学习特征表示的方法。

其通过构造一个代理任务(pretext task)来实现特征表示学习。
代理任务
1. 预测类任务
2. 生成式任务
3. 对比学习任务
4. …
代理任务的监督信息来源是从数据本身获得的。
举例

完型填空(BERT)、预测下一个单词(GPT)

典型用法：通过自监督学习完成特征提取器的预训练，然后，在下游任务上进行微调。

发展

T-7-1

Non-Local

问题

卷积操作难以捕捉长距离依赖（卷积的做法是不断堆积更多层，从而获得更大的感受野）
破解之法

卷积网络 + Non-Local 模块（注意力机制）

T-7-2

ViT

CNN在图像领域的统治地位
Transformer在自然语言处理领域如此成功
Transformer在图像领域也可以获得与CNN相当甚至更高的精度

虽然缺少局部性与平移性的归纳偏置需要大量的数据进行训练

T-7-3

T-7-4

MAE

提出一个非对称的编解码器网络
自监督学习，采用高比率的遮挡预测任务作为代理任务
lmagenet-1K上训练达到了87.8%，且在检测、分割等任务上均达到了SOTA
训练过程快

T-7-5

效果

文章作者: isSeymour

文章链接: https://isseymour.github.io/butterflyblog/2024/06/02/CVDL-9-T/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 isSeymour！

计算机视觉

赞助

微信支付
支付宝

相关推荐

CVDL - 前言、简介

CVDL - 线性分类器

CVDL - 全连接神经网络

评论

数据库加载中