锐谷网:专注于综合性的互联网媒体分享平台

人工智能

当前位置:首页 > 人工智能

DeepSeek,即将重大更新!

DeepSeek新版本R2模型即将发布。尽管官方还未正式确认,但是目前业内普遍预期将于5月发布。DeepSeek目前有两大核心大模型:【DeepSeek-V3】于2024年12月26日正式发布,并且在2...

DeepSeek新版本R2模型即将发布。尽管官方还未正式确认,但是目前业内普遍预期将于5月发布。


DeepSeek目前有两大核心大模型:

DeepSeek-V3】于2024年12月26日正式发布,并且在2025年3月24日进行小版本更新(V3-0324),进一步提升推理和中文写作能力。

V3采用混合专家(MoE)架构,总参数6710亿,激活370亿参数,支持多模态处理(文本、图像、音频等)。V3训练成本仅557.6万美元,远低于行业平均水平,被称作“性价比之王”。

V3适用于智能客服、内容创作(文案、小说)、知识问答等。

DeepSeek-R1】于2025年1月正式上线,2025年3月24日与V3技术融合的更新发布。

R1采用混合专家架构、MLA层、稀疏注意力机制及强化学习技术,实现了高性能推理与低计算成本的平衡。在数学(AIME2024得分79.8%)、代码生成(MATH-500得分97.3%)等任务中对标GPT-4。

R1专攻复杂推理任务,如科研、金融分析(生成SQL查询与交易策略)、算法交易等。


相比较来说,V3以低成本、多模态处理能力占据通用场景优势,R1则以强化学习和推理能力成为专业领域标杆。但两者均开源模型权重(MIT协议),支持国产芯片和混合部署。

这次即将更新的R2是R1的升级,但并非简单的参数堆砌,而是通过算法优化、硬件适配和场景扩展实现“质变”,目前有几个猜测

1. R2采用自主研发的Hybrid MoE(混合专家模型)3.0架构,动态激活参数预计达1.2万亿,但实际计算消耗仅780亿参数,显著提升效率。结合FP8通用矩阵乘法库(DeepGEMM),支持稠密和MoE模型,仅300行代码即可实现高性能内核,推理速度提升至每秒320tokens,成本降低70%。

DeepSeek一直致力于降本增效,这个猜想数据可能有出入,但是整体为真的概率比较大。

2. 多模态能力突破,新增图像生成和视频理解能力,支持文生视频、图生视频任务。

多模态本身就是大模型发展的一个重要趋势,所以R2强化多模态能力也是大概率事件。

3. 突破单一语言限制,支持中、英、西班牙语等混合任务处理,例如跨国企业可用同一模型分析全球市场数据,教育机构低成本开发多语言课程。

总之,结合近期业内讨论声音来看,R2的升级可能主要聚焦在架构创新(Hybrid MoE 3.0)、性能突破(编程/多语言)、能效优化(成本降低70%-97.3%)以及多模态扩展这四个方面。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 mx@lovelu.top 举报,一经查实,本站将立刻删除。

文章评论

表情

共 0 条评论,查看全部
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~