0%

Self Attention

自注意力机制(Self Attention)

输入的向量集

  • One-hot 编码
  • 词嵌入 (word embedding) ## 输出
  • 每个向量对应一个标签(序列标注)
  • 整个序列有一个标签
  • 模型可以自行决定标签数量(seq2seq)

序列标注 (Sequence Labeling)

  • 可以考虑上下文信息
  • 将整个序列放在一个窗口中计算可能会消耗大量资源

自注意力机制 (Self-attention)

自注意力机制
自注意力机制
  • 找到与 相关的向量,用 表示相关向量 相关向量
  • 使用点积 (Dot-product) 和加法 (Additive) 来计算 计算方法
  • 也可以使用其他函数如 ReLU 处理过程 得到 b1

矩阵描述

如何得到 q、k、v[得到注意力分数![得到 b![总结

Multi-head Self attention

  • 代表了不同的关系类型
  • 每一种关系类型只和自己相同的关系类型做操作,例如的产生中,所使用的矩阵均为

- 最后拼接,再进行一次变换得到 |400 ## Positional Encoding - 对self-attention而言,没有体现出位置信息,即使的输入顺序不同,输出的结果也不会产生影响。 - 为每个不同的位置设置一个位置向量,|475 - Positional Encoding依然是一个尚待研究的问题 ## Self-attention for Speech - 语音序列一般比较长,如果语音序列的长度为,所以一般使用Truncated Self-attention截取一小块片段 |200 ## Self-attention for Image - 将不同的通道的像素组合看做一个向量 |400

Self-attention vs CNN

Self-attention vs RNN

|475
|475

Self-attention for Graph

|525
|525