DeepSeek发布V4开源模型,1.6T参数全栈适配华为昇腾芯片
DeepSeek于4月24日发布V4系列并开源,包含V4-Pro(1.6T总参数/49B激活)和V4-Flash(284B/13B),均支持100万token上下文。模型采用混合注意力架构(CSA+HCA),KV缓存降至V3.2的10%,预训练数据超27万亿token。V4-Pro在LiveCodeBench达93.5分、Codeforces评分3206,编码能力超越GPT-5.4和Claude Opus 4.6。API定价极具竞争力:Pro版输出仅3.48美元/百万token,为GPT-5.5的约1/9。模型全栈运行于华为昇腾平台,昇腾950超节点实现V4-Pro 20ms低时延推理,标志首个不依赖英伟达硬件的前沿开源模型。采用MIT许可证,权重已发布于Hugging Face。
阅读原文