56 层的网络比 20 层更差——不是过拟合,是训练误差也更高。然后何恺明加了一个加号:y = F(x) + x。就这一个加号,让网络从 20 层堆到 1000 层,让 GPT 成为可能。 从一个反直觉的实验说起 2015 ...