大家都知道,目前的大型模型主要基于Transformer架构。Transformer的核心结构是多头自注意力模型。
大型模型具有重要的能力,即上下文学习。当大型模型的参数训练完成后,用户可以通过提供上文来获取大型模型的下文,从而实现交互。这种上下文学习是大型模型的基础能力。
然而,关于上下文学习的机制并不十分清楚。为了更好地理解上下文学习,美国耶鲁大学的杨卓然助理教授和他的团队研究了一层多头自注意力模型。
在研究中,他们探讨了训练多头自注意力模型的优化问题,特别是在使用一层多头自注意力模型进行上下文学习时,梯度优化算法是否能够收敛以及收敛到何处的问题。
通过在多任务线性模型上使用梯度流来训练Transformer,他们发现梯度流算法的确是收敛的。收敛过程包括预热阶段、任务分配阶段和最终收敛阶段。
此外,他们还研究了梯度流学习的极限模型的上下文学习预测误差,发现误差会随着任务数量的增加而衰减。
通过分析自注意力权重的分解,他们证明了多头自注意力模型优于单头自注意力模型。他们还发现,注意力头的数量越多,性能差距越大。
在研究中,他们还描述了自注意力头的任务分配原则,以及奇异值的变化规律。最终,他们证明了多头自注意力模型的有效性,并展望了未来研究的方向。
总的来说,耶鲁团队的研究为理解多头自注意力结构的上下文学习机制和梯度流算法的收敛性提供了重要的理论基础。