一篇多达 25 位研究者参与撰写的论文,以最简单的架构仅包含注意力块的两层或更少层的 transformer 模型为基础,对 Transformer 进行逆向研究。 Transformer 是 Google 团队在 2017 年 6 月提出的 NLP 经典之作,由 Ashish Vaswani 等人在论文《 Attention Is All You Need 》中提出。
导语:少于两层、且只有注意力块的transformer在某些方面也能达到复杂transformer的效果。 只有一层或两层、且只有注意力块的transformer,在性能上有望达到96层、兼具注意力块与MLP块的GPT-3的效果吗? 在过去的两年里,基于Transformer架构开发的大规模语言模型在 ...