国产MoE大模型DeepSeek-V2火了！性能超越GPT-4，API价格仅为百分之一

明敏发自凹非寺量子位 | 公众号 QbitAI

最新国产开源MoE大模型DeepSeek-V2一经发布，立马引发不小讨论。性能超越一众开源模型，和GPT-4-Turbo、文心4.0等闭源模型同处第一梯队。英文综合能力也和LLaMA3-70B同处第一梯队，并且超过了同是MoE的Mixtral 8x22B。在知识、数学、推理、编程等方面表现出色，支持128K上下文。普通用户可以直接免费使用，内测已开启，注册后即可体验。

API价格极具竞争力：每百万tokens输入1元、输出2元（32K上下文），仅为GPT-4-Turbo的近百分之一。模型架构创新，采用了MLA（Multi-head Latent Attention）和Sparse结构，大幅减少模型计算量、推理显存。网友感叹DeepSeek总是给人带来惊喜！具体效果已经抢先体验，内测版可体验通用对话和代码助手。

在通用对话中，可以测试大模型的逻辑、知识、生成、数学等能力。数学方面能回答高数微积分问题，规避语言逻辑陷阱。DeepSeek-V2的知识内容更新到2023年，代码方面使用DeepSeek-Coder-33B回答问题，生成简单代码准确无误。

DeepSeek-V2以236B总参数、21B激活，性能强大，训练成本低，节省42.5%训练成本，减少93.3%的KV缓存，最大吞吐量提高到5.76倍。API定价几乎低于市面上所有明星大模型，模型和论文完全开源。现在登录DeepSeek API开放平台，注册即赠送1000万输入/500万输出Tokens，普通试玩完全免费。感兴趣的用户可以前往体验地址：https://chat.deepseek.com，API平台：platform.deepseek.com，GitHub：https://github.com/deepseek-ai/DeepSeek-V2?tab=readme-ov-file。

代码计算量 gpt-4 视频生成模型

国产MoE大模型DeepSeek-V2火了！性能超越GPT-4，API价格仅为百分之一

相关推荐：

最近发表

previous