DeepSeek一体机

单机可部署R1 671B满血版
兼容CUDA

全精度高并发
国内唯一单机16卡全精度16/8/4bit下高并发满血版DeepSeek-R1/V3
长窗口低延时
BF16精度下8K+Tokens输入每秒解析延迟保持在50毫秒
极致推理加速
自研OpenTrek-LLM相比开源vLLM版本可提升吞吐50%,延时降低100%
模板开箱即用
预置数据知识处理+蒸馏 微调训练+智能体搭建一体工具链与应用模版
性能报告
模型 精度 显存 总吞吐(tokens/s) 并发数
DeepSeek-R1/V3 BF16 1536GB 3708 256
DeepSeek-R1/V3 INT8 1536GB 5872 512
单台流畅体验并发条件下 AGP@BF16
短文本输入 TTFT首字延迟(秒) 0.121-0.583
TPOT解析延迟(秒) 0.029-0.052
总吞吐速度(tokens/秒) 68-322
长文本输入 TTFT首字延迟(秒) 1.181-10.59
TPOT解析延迟(秒) 0.050-0.056
总吞吐速度(tokens/秒) 648-826
一体机系列推荐
训推一体机 智能体一体机 高性能一体机
特性 单机16卡DeepSeek满血版支持16/8/4bit全精度推理,实现软硬一体的训练和推理性能极致加速,实现全栈AI可观测 搭载模型微调、数据知识处理和智能体RAG搭建的全栈大模型工具链,具备高效训推性能,预制应用模板开箱即用 支持高网环境下多机多卡的高性能PD分离式推理与分布式训练,支持模型蒸馏后训练
可纳管异构GPU,支持并行化多模态数据预处理与海量向量RAG检索
智算 APG 16卡 单台 APG 16卡 单台 APG 16卡 2-10台
通算 - 海光 3台 海光 3台+
交换机 - 25GE 200GE/400GE
软件 预装内置 容器/存储/缓存/数据库
训推平台 训推+智能体平台 训推+智能体平台
服务 软硬件安装部署、性能调优测试、行业模型训练、智能体应用搭建

可支持模型列表:
DeepSeek-R1/V3、DeepSeek蒸馏全尺寸、Qwen全尺寸、Qwen-VL全尺寸、全模态解析模型、向量模型、精排模型

一体机系列

实现DeepSeek R1/V3及其蒸馏模型的极致适配,确保推理性能和效率达到最优状态

配置信息

  • 单机 海光/lntel双路多核CPU
  • 单机 16卡
  • 单机热插拔 15.36TB NVMe 高速存储
  • 单机显存容量 1536GB,显存带宽 2765GB/S
  • 机内卡间互联带宽 700GB/s
  • 机外支持 400G RDMA 网络