Llama 3发布,小模型大亮点

科技 2024-04-21 07:13 阅读:20

Meta最新发布的Llama 3系列大模型,以其“小”模型为亮点,引发了广泛关注。与其他行业巨头不同,Meta选择用更小的模型,却取得了更大的成就。80亿参数的Llama 3模型,使用了15万亿Token的训练数据,比Google和Mistral的同级别模型学习的数据还要多一倍以上,是许多小公司产品的十倍。

根据Meta公布的数据,在5个常用大模型能力评估测试集上,新发布的80亿参数模型和700亿参数模型的得分基本都高于同级竞争对手。特别是80亿参数的Llama 3,在各项评测中得分大幅超过Google和Mistral开发的同级别模型,数学、编程能力更是翻倍。Meta称这些模型是目前“功能最强大、公开可用的大模型”。

Meta还透露,他们正在训练4050亿参数的大模型,初步评测得分已达到GPT-4水平,这一消息让Llama 3获得更多关注。Meta的CEO马克·扎克伯格表示,他们将继续朝着更小的模型方向发展,希望看到10亿参数甚至5亿参数的模型,探索更多可能性。

通过打破Scaling Laws,Meta用超出行业预期的数据和算力训练模型,取得了令人瞩目的成就。他们的方法或许会成为行业的新标杆,改变许多研究工作和创业公司的经营状况。在小模型竞赛中,Meta展现出了强大的实力,为未来的发展奠定了坚实基础。