2个月烧1000万美元，最强开源大模型DBRX来袭

科技 2024-03-29 15:32 阅读：17

在最新的技术战场上，Databricks公司发布了一款名为DBRX的开源大模型，号称是全球最强的大模型之一。令人惊讶的是，他们仅用了2个月时间和1000万美元的成本就打造出了这一震撼性能的模型。DBRX的参数规模高达1320亿，超越了Meta的Llama2、Mistral AI的Mixtral以及Grok-1，表现更胜一筹。

DBRX采用了与其他大模型不同的Mixture of Experts专家混合架构，在性能和成本上都取得了巨大突破。在核心能力测试中，DBRX轻松击败了竞争对手，包括Llama2-7B、Mixtral和Grok-1，在开源基准测试Gauntlet的30多个测试中也表现优异。

不仅如此，DBRX在大部分基准测试中的表现也超越了GPT-3.5，甚至接近了公认的第一梯队GPT-4。尽管DBRX拥有1320亿参数，但实际运行中只激活约360亿参数进行推理，从而拥有更快的生成速度和更低的推理成本，提供更好的使用体验和性价比。

这一切的基础在于DBRX采用的专家混合框架，根据具体问题激活不同的专家子模块进行推理，实现更快的推理速度和更低的成本。在训练的最后阶段，Databricks的开发团队还将重点转向数据，采用课程学习的方式提高了DBRX的性能。

DBRX的发布引发了开源大模型之争的新一轮激烈竞争。从Meta、阿里到Mistral AI，各大厂商都在不断进行迭代，提高性能和效率。DBRX的加入无疑给这场战争注入了新的活力，改变了大模型的迭代和应用方式。开源大模型之争还在继续，谁能守住优势，谁能赢得这场战争，让我们拭目以待。

算法大模型 meta databricks

相关推荐：