LLM上下文窗口轻松扩展至200万!LongRoPE方法助力8倍性能提升

科技 2024-04-29 12:59 阅读:14

近日,Microsoft Research的研究人员提出了一种名为LongRoPE的新方法,成功将LLM的上下文窗口扩展至200万个token,仅需简单微调即可实现与短上下文窗口相近的性能。这一突破性的成果主要得益于LongRoPE方法包含的三个关键创新点。

首先,LongRoPE通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展。其次,引入了渐进扩展策略,先微调256k长度的LLM,然后在微调扩展的LLM上进行第二次位置插值,实现200万上下文窗口。最后,在8k长度上重新调整LongRoPE以恢复短上下文窗口性能。

实验证明,通过LongRoPE扩展的模型保留了原始架构,只对位置嵌入稍作修改,可以重复使用大部分已有的优化。位置插值的不均匀性成为了突破LLM上下文窗口限制的关键因素。

进一步的实验结果显示,LongRoPE方法在LLaMA2-7B和Mistral-7B模型上的应用表现出色。从长文档中扩展上下文LLM的困惑度到密钥检索任务,LongRoPE都展现出了强大的性能。特别是在超过2000k的长序列语言建模中,LongRoPE成功将LLaMA2-7B和Mistral-7B的上下文窗口扩展至2048k,同时在较短长度内实现了与基线相当甚至更好的困惑度。

LongRoPE方法为LLM的上下文窗口扩展带来了革命性的突破,为未来的语言建模研究提供了全新的思路和可能性。愿我们能在这一领域见证更多的创新和突破!