
dstack 是一个开源的 GPU 编排工具,能够自动化管理实例配置和生命周期,并支持跨云服务提供商的部署。本指南将逐步介绍如何以 nexgpu 作为后端使用 dstack,将声明式基础设施与具有竞争力的 GPU 市场价格结合。
dstack 的独特之处有哪些?
主要功能包括:
- 基础设施即代码 :通过 YAML 文件定义 GPU 需求、价格限制以及工作负载
- 自动资源调配 :dstack 自动搜索并选择最佳可用实例进行调配
- 成本控制 :使用
max_price参数自动限制每小时成本 - 内置代理 :通过 dstack 的认证端点访问服务
新版指南内容概述
最新文档将引导您使用 dstack 和 vLLM 在 nexgpu 上部署语言模型。
完整安装配置指南
- 利用 nexgpu API 密钥安装并配置 dstack
- 启动 dstack 服务器及命令行工具
- 创建适用于 vLLM 部署的服务配置
服务配置实战
- 部署 Qwen3-30B-A3B 的现成 YAML 文件
- 设置 GPU 显存及价格参数
- 真实部署输出示例
API 集成示例
- 使用 OpenAI SDK 的 Python 代码
- 测试用的 cURL 示例
- 实现流式响应方案
为什么选择 dstack + nexgpu?
二者结合为 GPU 市场提供了强大的编排支持:
- 简化工作流 :无需手动搜索实例或配置环境
- 成本优化 :dstack 能找到满足需求的最低成本实例
- 灵活定价 :通过自动成本上限,享受 nexgpu 的优惠价格
- 生产级 API :vLLM 提供与 OpenAI 兼容的端点
本指南展示了如何通过单条命令,在配备 80GB 显存的 H100 GPU 上部署 Qwen3-30B-A3B 模型。
本指南适合哪些用户?
该部署指南非常适合以下使用场景:
- 团队 :希望实现可重现、可版本化的 GPU 部署
- 开发者 :旨在简化基础设施管理并构建 LLM 应用的用户
- 任何人 :希望摆脱手动配置与管理 GPU 实例的烦恼
快速开始
完整指南已在文档中提供:
无论您是 GPU 编排的新手,还是寻找更优 LLM 部署管理方式的用户,本指南都能帮助您在 nexgpu 上开始使用 dstack 的所有必需步骤。
准备好了吗?按照指南部署您的第一个模型吧。