图与代码不一致Transformer论文被发现错误

来源：未知编辑：天选资讯时间：2023-05-15

　　天选团队论文中的图有时会出现与实现代码不对应的情况，这会让读者头大，不知是有意还是无意为之。这次，没想到大名鼎鼎的 Transformer 论文也「翻车」了。

　　2017 年，谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构，自此这一研究一路开挂，成为当今 NLP 领域最受欢迎的模型之一，被广泛应用于各种语言任务，并取得了许多 SOTA 结果。

　　不仅如此，在 NLP 领域一路领先的 Transformer，迅速席卷计算机视觉（CV）、语音识别等领域，在图像分类、目标检测、语音识别等任务上取得良好的效果。

　　从推出至今，Transformer 已经成为众多模型的核心模块，比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer，而后者早已被谷歌申请了专利。

　　6 年时间，基于 Transformer 构建的模型不断发展壮大。然而现在，有人发现了 Transformer 原始论文中的一处错误。

　　发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出，原始 Transformer 论文中的架构图有误，将层归一化（LN）放置在了残差块之间，而这与代码不一致。

　　当层归一化在注意力和全连接层之前被放置于残差连接之中时，能够实现更好的梯度。

　　对于 Sebastian 的这一发现，有人认为，我们经常会遇到与代码或结果不一致的论文。大多数是无心之过，但有时令人感到奇怪。考虑到 Transformer 论文的流行程度，这个不一致问题早就应该被提及 1000 次。

　　Sebastian 回答称，公平地讲，「最最原始」的代码确实与架构图一致，但 2017 年提交的代码版本进行了修改，同时没有更新架构图。所以，这实在令人困惑。

　　正如一位网友所说，「读代码最糟糕的是，你会经常发现这样的小变化，而你不知道是有意还是无意。你甚至无法测试它，因为你没有足够的算力来训练模型。」

　　原标题：《图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，天选澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。