DeepSeek官网 - 先进大型语言模型和多模态AI技术

DeepSeek官网模型家族

DeepSeek提供6个主要活跃模型，涵盖语言、推理和多模态领域，满足不同场景的需求

MIT

DeepSeek V3.1

最新混合架构模型，支持思维模式和非思维模式切换，总参数685B，激活37B参数，128K上下文长度。结合V3和R1优势，具备原生工具使用、搜索和编程能力，在编程基准测试中表现卓越。

685B总参数 128K上下文混合架构

了解详情

DeepSeek V3

强大的语言模型，采用Mixture-of-Experts (MoE)架构，总参数达671B，每个token激活37B参数，在多个基准测试中超越其他开源模型，性能媲美领先闭源模型。适用于自然语言处理、内容生成和语义理解等任务。

671B总参数 14.8万亿tokens训练

了解详情

DeepSeek-Prover-V2

专注于推理任务的模型，特别是在数学和逻辑领域，提供671B和7B两种规模，适合需要强大推理能力的应用场景。该模型在复杂数学问题解决和定理证明方面表现卓越。

671B参数 7B参数

了解详情

DeepSeek-VL2

视觉语言模型，支持视觉问答、光学字符识别、文档理解和可视化定位等任务，提供多种规模以适应不同部署需求。该模型能有效处理图像和文本的交互理解任务。

Tiny(1.0B) Small(2.8B) Base(4.5B)

了解详情

MIT

DeepSeek R1

高性能推理模型，基于DeepSeek-V3-Base开发，性能与OpenAI的GPT-4相当，同时训练成本显著降低，采用MIT开源许可。该模型特别适合需要精确推理和决策的企业和研究应用。

多种变体高效推理

了解详情

MIT

Janus-Pro

多模态模型，支持文本生成图像和视觉理解，在多项基准测试中性能出色，部分指标超过OpenAI的DALL-E 3，采用MIT开源许可。该模型能创建高质量、符合文本描述的图像，适用于创意设计和内容创作。

1B参数 7B参数

了解详情

DeepSeek官网核心特性

先进的模型架构

DeepSeek采用创新的Mixture-of-Experts (MoE)架构和Multi-head Latent Attention (MLA)，实现高效推理和低成本训练，为用户提供更高性能的大型语言模型体验

卓越的推理能力

DeepSeek模型在数学、逻辑和复杂推理任务上表现突出，DeepSeek R1模型性能可与OpenAI的GPT-4媲美，为科研和商业应用提供强大的决策支持

多模态理解

DeepSeek官网提供的DeepSeek-VL2和Janus-Pro支持图像文本交互，实现视觉问答、文档理解和图像生成等多模态任务，满足现代AI应用的多元需求

开源友好

DeepSeek部分模型采用MIT许可开源，鼓励全球开发者社区参与贡献，推动AI技术的普及和创新，降低AI应用开发门槛

高效训练

DeepSeek创新训练方法大幅降低资源消耗，DeepSeek V3仅需2.788M H800 GPU hours，远低于传统模型，为企业级AI部署提供成本效益

卓越性能

DeepSeek官网模型在多个基准测试中表现出色，特别是DeepSeek V3和R1在MMLU、GSM8K和C-Eval等测评中优于同类模型，提供更准确的自然语言处理能力

DeepSeek官网模型性能对比

DeepSeek模型在多项基准测试中表现卓越，与业界领先模型对比显示出色性能

DeepSeek大型语言模型和多模态模型性能对比表
模型	类型	参数规模	主要特点	许可
DeepSeek V3.1	混合架构模型	总685B，激活37B/token	结合V3+R1优势，支持思维/非思维模式，128K上下文，原生工具使用	MIT
DeepSeek V3	语言模型	总671B，激活37B/token	MoE + MLA架构，超越开源模型，媲美闭源领先模型	-
DeepSeek-Prover-V2	推理模型	671B, 7B	专注于数学和逻辑推理任务，解决复杂问题能力出众	-
DeepSeek-VL2	视觉语言模型	1.0B, 2.8B, 4.5B	VQA, OCR, 文档理解等多模态任务，图像文本理解能力强	-
DeepSeek R1	推理模型	多变体	基于V3-Base，媲美GPT-4，低训练成本，开源可用	MIT
Janus-Pro	多模态模型	1B, 7B	文本到图像生成，部分性能超过DALL-E 3，开源可用	MIT

查看详细对比分析

DeepSeek官网模型性能指标

671B+

最大参数规模

DeepSeek V3采用MoE架构，总参数量达671B，为模型提供强大的知识存储和推理能力，是当前最大规模的人工智能语言模型之一

14.8T

训练数据量(tokens)

DeepSeek V3训练于14.8万亿高质量、多样化的tokens，覆盖广泛知识领域，确保模型能够理解和生成多种类型的内容，适应不同场景需求

93.5%

C-Eval中文评估

DeepSeek模型在中文评估基准上远超其他模型，比GPT-4高出8.3个百分点，展现了卓越的中文理解和处理能力，特别适合中文市场应用

2.78M

H800 GPU Hours

DeepSeek创新训练方法大幅降低资源消耗，训练成本远低于传统模型，为企业提供更经济实惠的AI解决方案，降低应用门槛

查看详细性能评测

DeepSeek官网应用场景

科学研究与推理

DeepSeek V3和DeepSeek-Prover-V2在数学问题和逻辑推理方面表现出色，能够协助科研人员解决复杂问题，加速科学发现和理论验证，降低研究门槛

视觉语言处理

DeepSeek-VL2支持视觉问答、文档理解和表格分析等任务，帮助企业提取图像中的关键信息，自动化处理文档，提高工作效率和数据利用率

创意内容生成

Janus-Pro能将文本转化为图像，支持创意设计和内容创作，部分性能超过DALL-E 3，为设计师和创作者提供灵感和效率提升，拓展创意边界

查看更多应用场景

DeepSeek

DeepSeek官网 - 引领AI技术创新

DeepSeek官网模型家族

DeepSeek V3.1

DeepSeek V3

DeepSeek-Prover-V2

DeepSeek-VL2

DeepSeek R1

Janus-Pro

DeepSeek官网核心特性

先进的模型架构

卓越的推理能力

多模态理解

开源友好

高效训练

卓越性能

DeepSeek官网模型性能对比

DeepSeek官网模型性能指标

DeepSeek官网应用场景

科学研究与推理

视觉语言处理

创意内容生成

DeepSeek官网用户评价

张教授

准备好体验DeepSeek官网强大的AI能力了吗？