Meta震撼发布MEGALODON:7B参数无限长文本大模型,开源惊艳登场!

科技 2024-04-18 11:12 阅读:22

近日,Meta发布了一篇名为“MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length”的论文,引入了一种高效序列建模的神经架构,名为MEGALODON,可以处理无限长的上下文输入,吸引了广泛关注。

MEGALODON继承了MEGA架构,并引入了多种技术组件来提高其能力和稳定性,包括复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制和具有两个特征的预归一化残差配置。在与LLAMA2的比较中,MEGALODON在70亿参数和2万亿训练token的规模上表现更好,训练损失达到1.70,相对于Transformers有显著改进。

MEGALODON的创新之处在于引入了复数指数移动平均CEMA,将时间步归一化扩展到自回归序列建模任务,提高了模型的稳定性和效率。此外,归一化注意力和具有两跳残差的预归一化配置也为MEGALODON的性能提升做出了贡献。

在实验中,MEGALODON在长上下文序列建模上表现出了出色的效果,数据效率高,计算效率也得到了验证。在各种基准测试中,MEGALODON都表现优异,甚至在某些任务上超过了更大规模的LLAMA2模型。

MEGALODON的发布不仅在学术界引起了关注,也在实际应用中展现出了强大的性能。在图像分类任务上,MEGALODON的准确率比之前的模型提高了1.3%,在PG-19上的表现更是遥遥领先。

Meta的MEGALODON模型的开源将为研究者和开发者提供一个强大的工具,带来更多可能性和创新。更多详细内容请查阅原文论文。