国产MoE大模型DeepSeek-V2火了!性能超越GPT-4,API价格仅为百分之一

科技 2024-05-07 14:58 阅读:9

明敏 发自 凹非寺量子位 | 公众号 QbitAI

最新国产开源MoE大模型DeepSeek-V2一经发布,立马引发不小讨论。性能超越一众开源模型,和GPT-4-Turbo、文心4.0等闭源模型同处第一梯队。英文综合能力也和LLaMA3-70B同处第一梯队,并且超过了同是MoE的Mixtral 8x22B。在知识、数学、推理、编程等方面表现出色,支持128K上下文。普通用户可以直接免费使用,内测已开启,注册后即可体验。

API价格极具竞争力:每百万tokens输入1元、输出2元(32K上下文),仅为GPT-4-Turbo的近百分之一。模型架构创新,采用了MLA(Multi-head Latent Attention)和Sparse结构,大幅减少模型计算量、推理显存。网友感叹DeepSeek总是给人带来惊喜!具体效果已经抢先体验,内测版可体验通用对话和代码助手。

在通用对话中,可以测试大模型的逻辑、知识、生成、数学等能力。数学方面能回答高数微积分问题,规避语言逻辑陷阱。DeepSeek-V2的知识内容更新到2023年,代码方面使用DeepSeek-Coder-33B回答问题,生成简单代码准确无误。

DeepSeek-V2以236B总参数、21B激活,性能强大,训练成本低,节省42.5%训练成本,减少93.3%的KV缓存,最大吞吐量提高到5.76倍。API定价几乎低于市面上所有明星大模型,模型和论文完全开源。现在登录DeepSeek API开放平台,注册即赠送1000万输入/500万输出Tokens,普通试玩完全免费。感兴趣的用户可以前往体验地址:https://chat.deepseek.com,API平台:platform.deepseek.com,GitHub:https://github.com/deepseek-ai/DeepSeek-V2?tab=readme-ov-file。