·发表于 Towards Data Science ·13 分钟阅读·2024 年 1 月 10 日
--
本文由 Rafael Nardi 合著。
在本文中,我们深入探讨了 Transformer 架构中的解码器组件,重点分析它与编码器的异同。解码器的独特特点在于其类似循环的迭代特性,这与编码器的线性处理方式形成鲜明对比。解码器的核心是两种修改过的注意力机制:掩蔽的多头注意力和编码器-解码器多头注意力。
解码器中的掩蔽多头注意力确保了令牌的顺序处理,这种方法防止了每个生成的令牌受到后续令牌的影响。这种掩蔽对于保持生成数据的顺序性和连贯性至关重要。解码器输出(来自掩蔽注意力)与编码器输出之间的交互体现在编码器-解码器注意力中。最后一步将输入上下文引入解码器的处理过程中。
我们还将演示如何使用 Python 和 NumPy 实现这些概念。我们创建了一个简单的示例,用于将一句话从英语翻译成葡萄牙语。这种实用的方法将帮助阐明 Transformer 模型中解码器的内部工作原理……