Meta震撼发布MEGALODON：7B参数无限长文本大模型，开源惊艳登场！

科技 2024-04-18 11:12 阅读：22

近日，Meta发布了一篇名为“MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length”的论文，引入了一种高效序列建模的神经架构，名为MEGALODON，可以处理无限长的上下文输入，吸引了广泛关注。

MEGALODON继承了MEGA架构，并引入了多种技术组件来提高其能力和稳定性，包括复数指数移动平均（CEMA）、时间步归一化层、归一化注意力机制和具有两个特征的预归一化残差配置。在与LLAMA2的比较中，MEGALODON在70亿参数和2万亿训练token的规模上表现更好，训练损失达到1.70，相对于Transformers有显著改进。

MEGALODON的创新之处在于引入了复数指数移动平均CEMA，将时间步归一化扩展到自回归序列建模任务，提高了模型的稳定性和效率。此外，归一化注意力和具有两跳残差的预归一化配置也为MEGALODON的性能提升做出了贡献。

在实验中，MEGALODON在长上下文序列建模上表现出了出色的效果，数据效率高，计算效率也得到了验证。在各种基准测试中，MEGALODON都表现优异，甚至在某些任务上超过了更大规模的LLAMA2模型。

MEGALODON的发布不仅在学术界引起了关注，也在实际应用中展现出了强大的性能。在图像分类任务上，MEGALODON的准确率比之前的模型提高了1.3%，在PG-19上的表现更是遥遥领先。

Meta的MEGALODON模型的开源将为研究者和开发者提供一个强大的工具，带来更多可能性和创新。更多详细内容请查阅原文论文。

序列上下文 meta 视频生成模型

相关推荐：