使用 dstack 在 nexgpu 上部署 LLMs

2026-03-03 24 0

GPU服务器架与云端自动化部署场景

dstack 是一个开源的 GPU 编排工具,能够自动化管理实例配置和生命周期,并支持跨云服务提供商的部署。本指南将逐步介绍如何以 nexgpu 作为后端使用 dstack,将声明式基础设施与具有竞争力的 GPU 市场价格结合。

dstack 的独特之处有哪些?

主要功能包括:

  • 基础设施即代码 :通过 YAML 文件定义 GPU 需求、价格限制以及工作负载
  • 自动资源调配 :dstack 自动搜索并选择最佳可用实例进行调配
  • 成本控制 :使用 max_price 参数自动限制每小时成本
  • 内置代理 :通过 dstack 的认证端点访问服务

新版指南内容概述

最新文档将引导您使用 dstack 和 vLLM 在 nexgpu 上部署语言模型。

完整安装配置指南

  • 利用 nexgpu API 密钥安装并配置 dstack
  • 启动 dstack 服务器及命令行工具
  • 创建适用于 vLLM 部署的服务配置

服务配置实战

  • 部署 Qwen3-30B-A3B 的现成 YAML 文件
  • 设置 GPU 显存及价格参数
  • 真实部署输出示例

API 集成示例

  • 使用 OpenAI SDK 的 Python 代码
  • 测试用的 cURL 示例
  • 实现流式响应方案

为什么选择 dstack + nexgpu?

二者结合为 GPU 市场提供了强大的编排支持:

  • 简化工作流 :无需手动搜索实例或配置环境
  • 成本优化 :dstack 能找到满足需求的最低成本实例
  • 灵活定价 :通过自动成本上限,享受 nexgpu 的优惠价格
  • 生产级 API :vLLM 提供与 OpenAI 兼容的端点

本指南展示了如何通过单条命令,在配备 80GB 显存的 H100 GPU 上部署 Qwen3-30B-A3B 模型。

本指南适合哪些用户?

该部署指南非常适合以下使用场景:

  • 团队 :希望实现可重现、可版本化的 GPU 部署
  • 开发者 :旨在简化基础设施管理并构建 LLM 应用的用户
  • 任何人 :希望摆脱手动配置与管理 GPU 实例的烦恼

快速开始

完整指南已在文档中提供:

无论您是 GPU 编排的新手,还是寻找更优 LLM 部署管理方式的用户,本指南都能帮助您在 nexgpu 上开始使用 dstack 的所有必需步骤。

准备好了吗?按照指南部署您的第一个模型吧。

相关文章

10 分钟一键部署 Qwen3.5-35B ...