十一、Transformer

11.1 架构

RNN困境

T-1-1

Transformer 提出

T-1-2

架构

T-1-3

11.2 输入输出

输入输出

T-2-1

嵌入 PE 位置编码

  • 位置编码
  • 输入还需要经过一个PE(检测位置信息)

    如“我爱中国”和“爱我中国”不应该一样,但是若没有PE层,则会使得输入变得一样效果。

    T-2-2
T-2-5

编码解码

T-2-3

11.3 多头注意力

编码器

T-2-4
T-3-0

注意力计算

T-3-1
  • 计算方法

    下图为计算一个 x1得到 z1 的过程。

    T-3-2

矩阵合并表示

T-3-3

多头

  • 并行地计算多个 Z ,最后使用 W 综合效果即可。
T-3-4

计算过程:

T-3-5

头数推导:

T-3-6

11.4 ADD&Norm

T-4-1

区分不同的Norm:

T-4-2

11.5 前馈网络

T-5-1

11.6 解码器

T-6-1 T-6-2

11.7 图像领域

自监督学习

  • 使用无标注数据用自我监督的方式学习特征表示的方法。

    其通过构造一个代理任务(pretext task)来实现特征表示学习。

  • 代理任务

    1. 预测类任务
    2. 生成式任务
    3. 对比学习任务

    代理任务的监督信息来源是从数据本身获得的。

  • 举例

    完型填空(BERT)、预测下一个单词(GPT)

典型用法:通过自监督学习完成特征提取器的预训练,然后,在下游任务上进行微调。

发展

T-7-1

Non-Local

  • 问题

    卷积操作难以捕捉长距离依赖(卷积的做法是不断堆积更多层,从而获得更大的感受野)

  • 破解之法

    卷积网络 + Non-Local 模块(注意力机制)

T-7-2

ViT

  • CNN在 图像领域 的统治地位

  • Transformer在 自然语言处理 领域如此成功

  • Transformer在 图像领域 也可以获得与CNN相当甚至更高的精度

    虽然缺少局部性与平移性的归纳偏置需要大量的数据进行训练

T-7-3 T-7-4

MAE

  • 提出一个非对称的编解码器网络
  • 自监督学习,采用高比率的遮挡预测任务作为代理任务
  • lmagenet-1K上训练达到了87.8%,且在检测、分割等任务上均达到了SOTA
  • 训练过程快
T-7-5
  • 效果
T-7-6 T-7-7 T-7-8