Qwen3.5 去限制版本上线：零拒答，4090 也能本地运行

有人将 Qwen3.5-35B-A3B 的安全拒答机制移除，做出了一个完全不会拒绝回答的版本。

针对 465 个通常会触发模型拒绝的提示词进行了测试，最终拒绝次数为：0。

这个模型名为 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive，提供 GGUF 格式，可直接在 llama.cpp、LM Studio、Jan 中运行。

先讲清它到底是什么，再说运行方式，最后补充一下我的看法。

这个模型是什么

Qwen3.5-35B-A3B 是阿里通义千问在今年 2 月推出的新模型，总参数量为 350 亿，不过单次推理实际只会激活大约 30 亿参数（采用 MoE 架构，256 个专家模块中每次仅调用 8 个）。

这也意味着，虽然它是一个 350 亿参数模型，但实际运行时的资源消耗更接近 30 亿参数级别的小模型。按照阿里官方的说法：仅凭 30 亿激活参数，其表现就已经超过上一代 2350 亿参数的 Qwen3-235B。

原始版本本身能力就很强：

MMLU-Pro 85.3，GPQA Diamond 84.2
SWE-bench 69.2（代码能力）
支持文本、图片、视频多模态
原生 262K 上下文，可扩展到 100 万
支持 201 种语言

HauhauCS 所做的，是在这个基础模型上，使用一种名为 "abliteration" 的技术，把模型的拒绝机制去掉。

它的实现方式是识别并移除模型内部负责“拒绝回答”的方向向量，因此无需重新训练，也不用改动数据集，同时不会影响模型原有能力。

模型 100% 保留了原作者的设计意图，只是取消了拒绝机制。个别情况下，回答结尾可能仍会附带一句免责声明，那是基础模型训练时就固化进去的内容，不属于拒答，完整输出仍会生成。

这个版本被命名为 Aggressive（激进版），也就是完全开放，不保留任何安全护栏。

什么配置能跑一张 4090 就够

虽然单次推理只会激活 3B 参数，但整个 35B 模型依然需要完整加载到显存或内存中。因此，硬件门槛主要取决于 GGUF 文件体积以及上下文带来的额外开销。

RTX 4090（24GB 显存）

这是目前最常见的本地推理显卡。推荐使用 Q4\_K\_M 量化版本，文件大小为 20GB，连同上下文开销后基本可以装进 24GB 显存。它是质量与速度之间较均衡的选择。如果上下文设置得很长（例如 128K），显存可能会不够，这时需要把部分层卸载到 CPU。

Mac M系列

Mac 运行 MoE 模型其实很有优势，统一内存架构避免了 CPU 与 GPU 之间的数据搬运瓶颈。36GB 统一内存可以运行 Q4\_K\_M 到 Q5\_K\_M；64GB 及以上则可以直接运行 Q8\_0，甚至 BF16 全精度。

纯 CPU

即使没有独立显卡，只要内存足够也能运行。64GB 内存可以带动 Q8\_0。虽然速度会慢于 GPU，但由于 MoE 模型每次只计算 3B 参数，因此在 CPU 上的表现仍会优于同等体量的 dense 模型。

最低门槛

16GB 显存可以运行 IQ2\_M（11GB），能正常使用，但生成质量会有一定损失。

完整的量化选择：

所有量化版本都使用了 imatrix（重要性矩阵）生成，目的是尽量降低去限制后权重在量化过程中的损失。

怎么跑

用 llama.cpp 是最省事的方式：

# 纯文本
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
  --jinja -c 131072 -ngl 99

# 带视觉（需要额外下载 mmproj 文件）
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
  --mmproj mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --jinja -c 131072 -ngl 99

--jinja 必须加上，否则聊天模板会出问题。-c 131072 代表 128K 上下文，作者建议至少开到这个数值，才能较好保留思考能力。-ngl 99 表示把所有层都放到 GPU 上。

像 LM Studio、Jan 这类图形界面工具也都可以直接载入 GGUF 文件，拖进去即可。LM Studio 中参数列有时会显示成 256x2.6B，而不是 35B-A3B，这是元数据展示问题，不影响实际使用。

官方推荐的采样参数：

思考模式（默认）：temperature=1.0，top\_p=0.95，top\_k=20，presence\_penalty=1.5

写代码等精确任务：temperature=0.6，top\_p=0.95，top\_k=20

非思考模式：temperature=0.7，top\_p=0.8，top\_k=20

NexGPU-算力租赁,GPU服务器,GPU云算力,AI服务器租用-新闻博客

这个模型是什么

什么配置能跑一张 4090 就够

怎么跑

相关文章

admin

10 分钟一键部署 Qwen3.5-35B 去审查版 —— NexGPU 实操指南

Qwen3.5 去限制版本上线：零拒答，4090 也能本地运行

使用 dstack 在 nexgpu 上部署 LLMs

Qwen3.5 去限制版本上线：零拒答，4090 也能本地运行

这个模型是什么

什么配置能跑 一张 4090 就够

怎么跑

相关文章

admin

什么配置能跑一张 4090 就够