华为诺亚频域LLM「帝江」:训练成本仅需1/50,7B模型媲美LLaMA

科技 2024-04-03 16:58 阅读:35

在《山海经》中提到的神话生物“帝江”启发了一篇最新论文,提出了一种基于频域的大语言模型架构,名为“帝江”。这一架构通过频域自注意力变换核,实现了对原有Transformer模型的线性逼近,使得仅需少量数据(1/10-1/50)的微调,就可以将Transformer模型转变为“帝江”模型。在LLaMA2-7B上,只需40B左右的训练数据,就可以实现最多5倍的推理加速,并在各个评测集上取得相当的精度。

传统的Transformer架构在处理长序列时存在推理成本和内存占用巨大的问题,为解决这一问题,研究者们提出了线性Transformer、Mamba、RetNet等方案。然而,由于架构更换带来的模型重训练成本巨大,令人望而却步。而“帝江”模型的提出,通过频域映射和加权拟蒙特卡洛采样等方法,实现了对原始Transformer模型的高效近似,大幅降低了训练和计算成本。

通过对帝江模型和传统自注意力计算的区别进行对比,可以看到在Transformer的注意力机制中,通过快速离散余弦变换高效地映射到频域,有效消除了softmax操作,从而显著降低了Transformer的计算复杂度。实验结果表明,帝江模型在不同大小的scale上取得了与原始模型相当的精度,同时具有更快的推理速度和更低的训练成本,解决了现有LLM遇到的训推成本过大的问题。

总的来说,帝江模型的提出为未来LLM的高效部署提供了新的思路,值得期待其在更大的模型和多模态VLM等领域中的应用表现。帝江模型的出现,让人们对大型语言模型的发展充满期待。