2个月烧1000万美元,最强开源大模型DBRX来袭

科技 2024-03-29 15:32 阅读:17

在最新的技术战场上,Databricks公司发布了一款名为DBRX的开源大模型,号称是全球最强的大模型之一。令人惊讶的是,他们仅用了2个月时间和1000万美元的成本就打造出了这一震撼性能的模型。DBRX的参数规模高达1320亿,超越了Meta的Llama2、Mistral AI的Mixtral以及Grok-1,表现更胜一筹。

DBRX采用了与其他大模型不同的Mixture of Experts专家混合架构,在性能和成本上都取得了巨大突破。在核心能力测试中,DBRX轻松击败了竞争对手,包括Llama2-7B、Mixtral和Grok-1,在开源基准测试Gauntlet的30多个测试中也表现优异。

不仅如此,DBRX在大部分基准测试中的表现也超越了GPT-3.5,甚至接近了公认的第一梯队GPT-4。尽管DBRX拥有1320亿参数,但实际运行中只激活约360亿参数进行推理,从而拥有更快的生成速度和更低的推理成本,提供更好的使用体验和性价比。

这一切的基础在于DBRX采用的专家混合框架,根据具体问题激活不同的专家子模块进行推理,实现更快的推理速度和更低的成本。在训练的最后阶段,Databricks的开发团队还将重点转向数据,采用课程学习的方式提高了DBRX的性能。

DBRX的发布引发了开源大模型之争的新一轮激烈竞争。从Meta、阿里到Mistral AI,各大厂商都在不断进行迭代,提高性能和效率。DBRX的加入无疑给这场战争注入了新的活力,改变了大模型的迭代和应用方式。开源大模型之争还在继续,谁能守住优势,谁能赢得这场战争,让我们拭目以待。