有人将 Qwen3.5-35B-A3B 的安全拒答机制移除,做出了一个完全不会拒绝回答的版本。
针对 465 个通常会触发模型拒绝的提示词进行了测试,最终拒绝次数为:0。
这个模型名为 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive,提供 GGUF 格式,可直接在 llama.cpp、LM Studio、Jan 中运行。
先讲清它到底是什么,再说运行方式,最后补充一下我的看法。
这个模型是什么
Qwen3.5-35B-A3B 是阿里通义千问在今年 2 月推出的新模型,总参数量为 350 亿,不过单次推理实际只会激活大约 30 亿参数(采用 MoE 架构,256 个专家模块中每次仅调用 8 个)。
这也意味着,虽然它是一个 350 亿参数模型,但实际运行时的资源消耗更接近 30 亿参数级别的小模型。按照阿里官方的说法:仅凭 30 亿激活参数,其表现就已经超过上一代 2350 亿参数的 Qwen3-235B。
原始版本本身能力就很强:
- MMLU-Pro 85.3,GPQA Diamond 84.2
- SWE-bench 69.2(代码能力)
- 支持文本、图片、视频多模态
- 原生 262K 上下文,可扩展到 100 万
- 支持 201 种语言
HauhauCS 所做的,是在这个基础模型上,使用一种名为 "abliteration" 的技术,把模型的拒绝机制去掉。
它的实现方式是识别并移除模型内部负责“拒绝回答”的方向向量,因此无需重新训练,也不用改动数据集,同时不会影响模型原有能力。
模型 100% 保留了原作者的设计意图,只是取消了拒绝机制。个别情况下,回答结尾可能仍会附带一句免责声明,那是基础模型训练时就固化进去的内容,不属于拒答,完整输出仍会生成。
这个版本被命名为 Aggressive(激进版),也就是完全开放,不保留任何安全护栏。
什么配置能跑 一张 4090 就够
虽然单次推理只会激活 3B 参数,但整个 35B 模型依然需要完整加载到显存或内存中。因此,硬件门槛主要取决于 GGUF 文件体积以及上下文带来的额外开销。
RTX 4090(24GB 显存)
这是目前最常见的本地推理显卡。推荐使用 Q4\_K\_M 量化版本,文件大小为 20GB,连同上下文开销后基本可以装进 24GB 显存。它是质量与速度之间较均衡的选择。如果上下文设置得很长(例如 128K),显存可能会不够,这时需要把部分层卸载到 CPU。
Mac M系列
Mac 运行 MoE 模型其实很有优势,统一内存架构避免了 CPU 与 GPU 之间的数据搬运瓶颈。36GB 统一内存可以运行 Q4\_K\_M 到 Q5\_K\_M;64GB 及以上则可以直接运行 Q8\_0,甚至 BF16 全精度。
纯 CPU
即使没有独立显卡,只要内存足够也能运行。64GB 内存可以带动 Q8\_0。虽然速度会慢于 GPU,但由于 MoE 模型每次只计算 3B 参数,因此在 CPU 上的表现仍会优于同等体量的 dense 模型。
最低门槛
16GB 显存可以运行 IQ2\_M(11GB),能正常使用,但生成质量会有一定损失。
完整的量化选择:
所有量化版本都使用了 imatrix(重要性矩阵)生成,目的是尽量降低去限制后权重在量化过程中的损失。
怎么跑
用 llama.cpp 是最省事的方式:
# 纯文本
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
--jinja -c 131072 -ngl 99
# 带视觉(需要额外下载 mmproj 文件)
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
--mmproj mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
--jinja -c 131072 -ngl 99--jinja 必须加上,否则聊天模板会出问题。-c 131072 代表 128K 上下文,作者建议至少开到这个数值,才能较好保留思考能力。-ngl 99 表示把所有层都放到 GPU 上。
像 LM Studio、Jan 这类图形界面工具也都可以直接载入 GGUF 文件,拖进去即可。LM Studio 中参数列有时会显示成 256x2.6B,而不是 35B-A3B,这是元数据展示问题,不影响实际使用。
官方推荐的采样参数:
思考模式(默认):temperature=1.0,top\_p=0.95,top\_k=20,presence\_penalty=1.5
写代码等精确任务:temperature=0.6,top\_p=0.95,top\_k=20
非思考模式:temperature=0.7,top\_p=0.8,top\_k=20