阿里开源Qwen1.5-110B:超越Meta-Llama3-70B的巨无霸模型

科技 2024-04-28 17:43 阅读:16

近日,阿里巴巴宣布开源了Qwen1.5系列中规模最大的语言模型Qwen1.5-110B。这个模型拥有超过1000亿参数,采用了Transformer解码器架构,并引入了分组查询注意力机制,使得模型推理更加高效。不仅支持32K tokens的上下文长度,还能够应用于多种语言,包括英、中、法、西、德、俄、日、韩、越、阿等。

与最近发布的SOTA语言模型Meta-Llama3-70B和Mixtral-8x22B进行对比,Qwen1.5-110B在基础能力方面至少与Llama-3-70B相媲美。阿里巴巴表示,110B模型在两个聊天模型的基准评估中表现显著更好,证明了更强大、更大规模的基础语言模型可以带来更好的聊天模型性能。

阿里巴巴的Qwen1.5-110B模型在性能上超越了Meta-Llama3-70B,展现出了巨无霸模型的强大实力。