main.py
from openai import OpenAI
client = OpenAI(base_url="YOUR_NexGPU_ENDPOINT")
resp = client.chat.completions.create(
model="mixtral-8x22B-v1m",
messages=[{"role": "user",
"content": "写一段产品介绍文案"}],
max_tokens=256,
)
print(resp.choices[0].message.content)用三点总结四月份投资者更新的要点。
价格页面更新后,月度经常性收入环比增长 42%
自从将推理任务迁移至 NexGPU 后,计算成本降低 68%
已完成 200 万美元种子轮追加融资;计划招募三名工程师
0.63 秒请输入消息...
专为此构建
开源模型即刻启动
可启动 LLaMA 3、DeepSeek、Qwen、Mistral 等开源模型,或加载您自行微调的检查点,几分钟内上线推理服务。
告别 DevOps 繁琐
vLLM、TGI 和 Oobabooga 等预构建镜像已为您承担繁重工作。无需手动配置 CUDA、驱动和依赖。
简洁 API 部署
通过 OpenAI 兼容 API 或 WebUI,以最少的配置即可部署模型服务。支持流式输出、函数调用等高级特性。
隔离安全环境
掌控您的专属环境。您的模型运行在隔离的 GPU 上,数据何时清除由您决定,满足企业级安全合规要求。
热门模型
文本
DeepSeek V3.2 实验版
DeepSeek AI
DeepSeek 稀疏注意力模型,在推理和编码任务上表现卓越。
文本视觉
Kimi K2.5
Moonshot AI
开源原生多模态代理模型,基于 Kimi-K2-Base 对约 15 万亿视觉与文本混合 token 进行持续预训练。
文本
DeepSeek R1 0528
DeepSeek AI
DeepSeek 最新推理模型,具备强大的逻辑推理和数学能力。
开始构建:AI 文本生成模板
使用预置模板快速部署您的 LLM 推理服务。
Open WebUI (Ollama)
可扩展、自托管的 AI 界面,适应您的工作流程。
Oobabooga 文本生成界面
基于 Gradio 实现的 LLM 文本生成 Web 界面与 API。
HuggingFace TGI API
用于部署和提供大型语言模型的高性能推理工具包。
vLLM
适用于 LLM 推理和服务的快速易用库,支持 OpenAI 兼容 API。
相关博客
在 NexGPU 平台上使用 vLLM API 提供在线推理服务
在 NexGPU 上使用 TGI 提供在线推理服务
在 NexGPU 上使用 vLLM 部署重排序模型
相关指南
vLLM(LLM 推理与部署)
结合 Llama 3 的 Hugging Face TGI
Oobabooga (LLM WebUI)
量化 GGUF 模型
开始部署您的 LLM 推理服务
无论是原型验证还是生产级部署,NexGPU 都能以最低成本提供最强算力,让您的大模型快速上线。