
如果你曾尝试生成 AI 视频并感叹:“这效果不错,但不是我想要的”,那你并非孤例!
Wan 2.2 旨在解决视频生成中的扩展性与效率问题。作为首批采用混合专家(MoE)架构的开源视频生成模型之一,它支持更高效的训练。由阿里通义实验室研发,该模型赋予创作者更强的控制能力,能够更加精确地遵循指令,呈现流畅的动作和电影级画质,同时无需大幅增加算力需求。
在 nexgpu 平台上,Wan 2.2 的两种变体已纳入模型库中:
- 文生视频(T2V) – 根据文字提示直接生成短视频。
- 图生视频(I2V) – 将静态图像转换为动态视频序列。
两种模型共享同一底层架构,这也是它们的独特之处。
Wan 2.2 的创新点
大多数基于扩散的视频模型采用单一神经网络完成整个去噪过程。而 Wan 2.2 的 MoE 架构通过两个专门化的“专家”,策略性地分离视频生成流程:
- 一个高噪声专家负责早期去噪阶段,侧重布局、构图以及整体场景结构和运动模式。
- 一个低噪声专家在后期接管,负责增强视频细节,提升灯光、对比度和色调等电影元素。
这种分工能够有效解决视频生成中的常见问题,例如不稳定的镜头运动和帧画面不一致,同时提高整体效率。虽然模型总参数量约为 270 亿,但每次推理仅激活约 140 亿参数。
模型通过信噪比(SNR)阈值在两个专家间自动切换——该指标衡量生成阶段中有意义视觉信息与残余噪声的比例。通过在合适的时机激活对应的专家模块,Wan 2.2避免了额外计算开销,显著提升运行效率,其性能甚至优于更小型的单专家模型。
简单来说,该系统能生成更自然的动态效果,提供卓越的视觉保真度,减少伪影,同时大幅降低算力浪费。
单一架构,双向流程
尽管底层架构相同,Wan 2.2 的两种变体为创作者提供了不同的切入点。
Wan 2.2 T2V A14B (FP8)
文本转视频(T2V)模型通过文字提示生成分辨率为 480P 或 720P 的 5 秒短视频,并能够细致控制照明、构图、对比度和色调。
T2V 变体的主要功能包括:
- 在 Wan-Bench 2.0 测试中表现优于领先的商业视频生成系统。
- 集成 Qwen 模型或 DashScope API,用于提升提示词解读能力。
- 支持参数类型转换以加快推理速度。
总体而言,这款文生视频模型非常适用于故事板制作、概念可视化、营销短片以及快速生成自然语言视频创意原型。
Wan 2.2 I2V A14B (FP8)
图生视频模型以静态图像为输入,将其转换为短视频序列。它可输出480P和720P两种分辨率,并支持文本提示以细致引导内容和运动细节。
I2V 变体的一些优势包括:
- 能够处理从写实到风格化的多种美学需求。
- 以每秒24帧的速率处理,实现流畅的高清输出。
- 自动提示推导功能,支持仅依赖图像生成视频,无需额外文字输入。
从概念图、产品照片到插图,图像转视频模型让静态画面鲜活起来,变为动态内容。
创意生产的最佳选择
无论是文本描述还是图像输入,Wan 2.2 都能满足真实世界中的创意生产需求。
你无需企业级硬件即可使用该模型。Wan 2.2 的混合专家架构保证了极高效率,即便在 RTX 4090 等消费级显卡上也能生成高品质视频。而针对大规模任务,模型还支持多 GPU 并行推理。利用 FSDP 和 DeepSpeed Ulysses 加速框架进一步提升生成速度。
Wan 2.2 与 nexgpu 灵活的 GPU 基础设施完美结合。用户可根据需求启动硬件,在单 GPU 上运行模型,或进行多 GPU 扩展以加速视频项目生成。
T2V 和 I2V 模型均与 ComfyUI 工作流程兼容,方便集成到现有工具中。
准备好用 Wan 2.2 开启创作之旅了么?只需简单几步,即可启动模型,生成电影级视频!