OpenBuddy团队发布首个中文跨语言训练模型OpenBuddy-Llama3-70B-v21.1-8k

科技 2024-05-10 08:57 阅读:6

5月10日,OpenBuddy团队发布了基于Meta Llama370B的最新成果OpenBuddy-Llama3-70B-v21.1-8k,这标志着他们首次在Llama370B基座上进行中文跨语言训练尝试。Llama370B是一个经过15T训练集训练而成的稠密大模型,然而由于训练集中缺乏中文数据,导致Meta官方的Llama3系列对话模型在中文领域的认知和理解能力相对较弱,容易出现以英文回答中文问题的情况。

为了提升模型的跨语言理解和认知能力,OpenBuddy团队选择了Llama370B Base模型作为基础进行训练。在测试过程中,OpenBuddy-Llama3-70B展现出了出色的中文理解能力,具备更强的认知潜力和量化后性能。他们还对Llama3现有词表进行了扩充,增加了7000余个中文字词,进一步提升了模型的中文编码密度。

值得一提的是,量化版模型的能力下降较为明显,因此他们本次只发布了模型的完整版权重,未来将优化70B模型的量化后性能,并在适当时机发布量化版。详情请查看模型链接:https://www.modelscope.cn/models/OpenBuddy/openbuddy-llama3-70b-v21.1-8k/summary。