人工智能

当前位置：首页 > 人工智能

DeepSeek，即将重大更新！

更新时间：2025-04-30 08:33:07 来源：锐谷网浏览：1106

DeepSeek新版本R2模型即将发布。尽管官方还未正式确认，但是目前业内普遍预期将于5月发布。DeepSeek目前有两大核心大模型：【DeepSeek-V3】于2024年12月26日正式发布，并且在2...

DeepSeek新版本R2模型即将发布。尽管官方还未正式确认，但是目前业内普遍预期将于5月发布。

DeepSeek目前有两大核心大模型：

【DeepSeek-V3】于2024年12月26日正式发布，并且在2025年3月24日进行小版本更新（V3-0324），进一步提升推理和中文写作能力。

V3采用混合专家（MoE）架构，总参数6710亿，激活370亿参数，支持多模态处理（文本、图像、音频等）。V3训练成本仅557.6万美元，远低于行业平均水平，被称作“性价比之王”。

V3适用于智能客服、内容创作（文案、小说）、知识问答等。

【DeepSeek-R1】于2025年1月正式上线，2025年3月24日与V3技术融合的更新发布。

R1采用混合专家架构、MLA层、稀疏注意力机制及强化学习技术，实现了高性能推理与低计算成本的平衡。在数学（AIME2024得分79.8%）、代码生成（MATH-500得分97.3%）等任务中对标GPT-4。

R1专攻复杂推理任务，如科研、金融分析（生成SQL查询与交易策略）、算法交易等。

相比较来说，V3以低成本、多模态处理能力占据通用场景优势，R1则以强化学习和推理能力成为专业领域标杆。但两者均开源模型权重（MIT协议），支持国产芯片和混合部署。

这次即将更新的R2是R1的升级，但并非简单的参数堆砌，而是通过算法优化、硬件适配和场景扩展实现“质变”，目前有几个猜测：

1. R2采用自主研发的Hybrid MoE（混合专家模型）3.0架构，动态激活参数预计达1.2万亿，但实际计算消耗仅780亿参数，显著提升效率。结合FP8通用矩阵乘法库（DeepGEMM），支持稠密和MoE模型，仅300行代码即可实现高性能内核，推理速度提升至每秒320tokens，成本降低70%。

DeepSeek一直致力于降本增效，这个猜想数据可能有出入，但是整体为真的概率比较大。

2. 多模态能力突破，新增图像生成和视频理解能力，支持文生视频、图生视频任务。

多模态本身就是大模型发展的一个重要趋势，所以R2强化多模态能力也是大概率事件。

3. 突破单一语言限制，支持中、英、西班牙语等混合任务处理，例如跨国企业可用同一模型分析全球市场数据，教育机构低成本开发多语言课程。

总之，结合近期业内讨论声音来看，R2的升级可能主要聚焦在架构创新（Hybrid MoE 3.0）、性能突破（编程/多语言）、能效优化（成本降低70%-97.3%）以及多模态扩展这四个方面。

DeepSeek 人工智能语言模型

收藏打印

顶一下（0）

踩一下（0）

上一篇：人工智能在环保行业的应用场景

下一篇：如何用好 DeepSeek 的几个模型

文章评论

共 0 条评论，查看全部

这篇文章还没有收到评论，赶紧来抢沙发吧~

人工智能

DeepSeek，即将重大更新！

相关内容

文章评论

点击排行

文章归档

评论排行榜

热门标签