DeepSeek一体机

全精度高并发

国内唯一单机16卡全精度16/8/4bit下高并发满血版DeepSeek-R1/V3

长窗口低延时

BF16精度下8K+Tokens输入每秒解析延迟保持在50毫秒

极致推理加速

自研OpenTrek-LLM相比开源vLLM版本可提升吞吐50%，延时降低100%

模板开箱即用

预置数据知识处理+蒸馏微调训练+智能体搭建一体工具链与应用模版

模型	精度	显存	总吞吐(tokens/s)	并发数
DeepSeek-R1/V3	BF16	1536GB	3708	256
DeepSeek-R1/V3	INT8	1536GB	5872	512

模型

精度

显存

总吞吐(tokens/s)

并发数

DeepSeek-R1/V3

BF16

1536GB

3708

256

DeepSeek-R1/V3

INT8

1536GB

5872

512

单台流畅体验并发条件下	AGP@BF16
短文本输入	TTFT首字延迟（秒）	0.121-0.583
TPOT解析延迟（秒）	0.029-0.052
总吞吐速度（tokens/秒）	68-322
长文本输入	TTFT首字延迟（秒）	1.181-10.59
TPOT解析延迟（秒）	0.050-0.056
总吞吐速度（tokens/秒）	648-826

单台流畅体验并发条件下

AGP@BF16

短文本输入

TTFT首字延迟（秒）

0.121-0.583

TPOT解析延迟（秒）

0.029-0.052

总吞吐速度（tokens/秒）

68-322

长文本输入

TTFT首字延迟（秒）

1.181-10.59

TPOT解析延迟（秒）

0.050-0.056

总吞吐速度（tokens/秒）

648-826

	训推一体机	智能体一体机	高性能一体机
特性	单机16卡DeepSeek满血版支持16/8/4bit全精度推理，实现软硬一体的训练和推理性能极致加速，实现全栈AI可观测	搭载模型微调、数据知识处理和智能体RAG搭建的全栈大模型工具链，具备高效训推性能，预制应用模板开箱即用	支持高网环境下多机多卡的高性能PD分离式推理与分布式训练，支持模型蒸馏后训练可纳管异构GPU,支持并行化多模态数据预处理与海量向量RAG检索
智算	APG 16卡单台	APG 16卡单台	APG 16卡 2-10台
通算	-	海光 3台	海光 3台+
交换机	-	25GE	200GE/400GE
软件	预装内置容器/存储/缓存/数据库
训推平台	训推+智能体平台	训推+智能体平台
服务	软硬件安装部署、性能调优测试、行业模型训练、智能体应用搭建
可支持模型列表： DeepSeek-R1/V3、DeepSeek蒸馏全尺寸、Qwen全尺寸、Qwen-VL全尺寸、全模态解析模型、向量模型、精排模型

训推一体机

智能体一体机

高性能一体机

特性

单机16卡DeepSeek满血版支持16/8/4bit全精度推理，实现软硬一体的训练和推理性能极致加速，实现全栈AI可观测

搭载模型微调、数据知识处理和智能体RAG搭建的全栈大模型工具链，具备高效训推性能，预制应用模板开箱即用

支持高网环境下多机多卡的高性能PD分离式推理与分布式训练，支持模型蒸馏后训练
可纳管异构GPU,支持并行化多模态数据预处理与海量向量RAG检索

智算

APG 16卡单台

APG 16卡 2-10台

通算

海光 3台

海光 3台+

交换机

25GE

200GE/400GE

软件

预装内置容器/存储/缓存/数据库

训推平台

训推+智能体平台

服务

软硬件安装部署、性能调优测试、行业模型训练、智能体应用搭建

可支持模型列表：
DeepSeek-R1/V3、DeepSeek蒸馏全尺寸、Qwen全尺寸、Qwen-VL全尺寸、全模态解析模型、向量模型、精排模型

实现DeepSeek R1/V3及其蒸馏模型的极致适配，确保推理性能和效率达到最优状态

配置信息

单机海光/lntel双路多核CPU
单机 16卡
单机热插拔 15.36TB NVMe 高速存储
单机显存容量 1536GB，显存带宽 2765GB/S
机内卡间互联带宽 700GB/s
机外支持 400G RDMA 网络

DeepSeek一体机

单机可部署R1 671B满血版兼容CUDA

配置信息

单机可部署R1 671B满血版
兼容CUDA