在本文中,我们将分析一个经典的序列对序列(Seq2Seq)模型的结构,并演示使用注意解码器的优点。这两个概念将为理解本文提出的Transformer奠定基础,因为“注意就是您所需要的一切”。 在Seq2seq模型中,神经机器翻译以单词序列的形式接收输入,并生成一个单词 ...