作者:admin 发布时间:2024-01-25 12:00 分类:资讯 浏览:32 评论:0
可以看的到 Transformer 是比 RNN 有明显差距的。虽然读了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌,但毫无疑问的是 Transformer 确实是最糟糕的,只是不一定有数字上好几倍这么夸张。
LSTM是RNN的一种特殊类型,它通过引入记忆单元来解决传统RNN的梯度消失问题。记忆单元可以使得网络在处理长序列数据时记住长期的依赖关系。这使得LSTM在处理语音识别任务时性能更好。
与LSTM 不同的是,transformer 模型能够以并行方式处理顺序输入,同时仍使来自序列一部分的信息能够为另一部分提供上下文。这一切都归功于他们的注意力模块。3D 模型的顶点包含各种对称性和远点之间的复杂依赖关系。
从Transformer这篇论文的题目可以看出,Transformer的核心就是Attention,这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer,如果对上面的Attention机制特别是自注意力模型(self-Attention model)理解后,Transformer就很容易理解了。
而CNN则是通过在输入数据上应用卷积核来提取有意义的特征。Transformer通常在自然语言处理和机器翻译等序列数据处理任务中得到广泛应用,而CNN则更多用于图像分类和识别等任务。
1、被动注意——基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关;可以将max-pooling和门控(gating)机制来近似地看作是自下而上的基于显著性的注意力机制。
2、因为注意力模型不像RNN那样无视了各输入之间的距离,因此是无法捕捉到序列顺序信息的,例如将K、V按行进行打乱,Attention之后的结果是一样的。
3、接着attention机制被广泛应用在基于RNN/CNN等神经网络模型的各种NLP任务中。2017年,google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力(self-attention)机制来学习文本表示。
4、人在饥饿状态下会相对急躁,没有耐心,考虑问题不周全。持久的饥饿和低血糖状态,会削弱人的意志力。意志力有赖于大脑,大脑则是全身最需要糖分的器官。所以血糖水平有利于维持意志力,保持专注状态。
5、Attention机制 **Attention: **Attention机制的中文名叫“注意力机制”,顾名思义,它的主要作用是让神经网络把“注意力”放在一部分输入上,即:区分输入的不同部分对输出的影响。
1、Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。
2、Transformer的总架构如下图所示:这是典型的Transformer结构,简单来说,Transformer = 预训练(input) + Encoder*N + 预训练(output) + Decoder*N+output。
3、transformer模型中缺少一种解释输入序列中单词顺序的方法,它跟序列模型还不不一样。
4、在Transformer出现之前,RNN系列网络以及seq2seq+attention架构基本上铸就了所有NLP任务的铁桶江山。
5、模型结构:Bert是基于Transformer编码器结构的模型,只有Encoder部分。而Transformer是由Encoder和Decoder组成的完整序列到序列结构的模型。Bert的模型结构更简单,主要用于上下文语义理解任务,如文本分类、文本相似度计算等。
6、个人理解是 Transformer 的多头机制是为了让不同的头关注句子的不同地方,从而能够学习到不同的模式。