LLM上下文窗口轻松扩展至200万！LongRoPE方法助力8倍性能提升

近日，Microsoft Research的研究人员提出了一种名为LongRoPE的新方法，成功将LLM的上下文窗口扩展至200万个token，仅需简单微调即可实现与短上下文窗口相近的性能。这一突破性的成果主要得益于LongRoPE方法包含的三个关键创新点。

首先，LongRoPE通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供更好的初始化，并在非微调情况下实现了8倍扩展。其次，引入了渐进扩展策略，先微调256k长度的LLM，然后在微调扩展的LLM上进行第二次位置插值，实现200万上下文窗口。最后，在8k长度上重新调整LongRoPE以恢复短上下文窗口性能。

实验证明，通过LongRoPE扩展的模型保留了原始架构，只对位置嵌入稍作修改，可以重复使用大部分已有的优化。位置插值的不均匀性成为了突破LLM上下文窗口限制的关键因素。

进一步的实验结果显示，LongRoPE方法在LLaMA2-7B和Mistral-7B模型上的应用表现出色。从长文档中扩展上下文LLM的困惑度到密钥检索任务，LongRoPE都展现出了强大的性能。特别是在超过2000k的长序列语言建模中，LongRoPE成功将LLaMA2-7B和Mistral-7B的上下文窗口扩展至2048k，同时在较短长度内实现了与基线相当甚至更好的困惑度。

LongRoPE方法为LLM的上下文窗口扩展带来了革命性的突破，为未来的语言建模研究提供了全新的思路和可能性。愿我们能在这一领域见证更多的创新和突破！

算法微调序列插值上下文视频生成模型