本文作者:真实自我

幻方DeepSeek-V2系列模型已在魔搭社区开源

真实自我 05-08 191
幻方DeepSeek-V2系列模型已在魔搭社区开源摘要: 最近娱乐圈图事故频发虞书欣刘宇宁王鸥魏大勋等都遭殃引发热议虞书欣工作室分享了多张穿搭美照其中一张照片出现了严重的图事故照片中肉眼可见的瑕疵有处比较明显的是眼镜镜框右侧镜框一小半凭空...

最近,娱乐圈P图事故频发,虞书欣、刘宇宁、王鸥、魏大勋等都遭殃,引发热议。虞书欣工作室分享了多张穿搭美照,其中一张照片出现了严重的P图事故。照片中,肉眼可见的瑕疵有4处,比较明显的是眼镜镜框,右侧镜框一小半凭空消失,左侧边框也出现了虚化效果。

5月8日 消息:宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。

据悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并开源了技术报告和模型权重,该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,以236B 总参数、21B 激活,实际部署在8卡 H800机器上,输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

幻方DeepSeek-V2系列模型已在魔搭社区开源

性能方面,在目前大模型主流榜单中,DeepSeek-V2均表现出色:

中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队

英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B

知识、数学、推理、编程等榜单结果也位居前列

支持128K上下文窗口

和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。

DeepSeek-V2的推理代码和模型*链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接*模型。

项目地址:

DeepSeek-V2-Chat:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

DeepSeek-V2:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享