TurboDiffusion：视频扩散模型 100–200 倍加速

Hacker News 摘要

原标题：TurboDiffusion: 100–200× Acceleration for Video Diffusion Models

TurboDiffusion 是由清华大学机器学习实验室（thu-ml）开发的官方实现方案。这是一个视频生成加速框架，在单张 RTX 5090 显卡上，它可以将端到端的扩散生成速度提高 100 至 200 倍，同时保持视频质量。

核心技术

TurboDiffusion 主要采用了以下技术实现加速：

• SageAttention：用于注意力机制的加速。

• SLA（稀疏线性注意力）：进一步优化注意力模块。

• rCM（分数正则化连续时间一致性）：用于时间步蒸馏，显著减少采样步数。

模型性能表现

在单张 RTX 5090 GPU 上，该框架展现了极高的推理效率。端到端时间指扩散生成的耗时，不包括文本编码和 VAE 解码。

• Wan-2.2-I2V-A14B-720P：原始生成需要 4549 秒，TurboDiffusion 仅需 38 秒。

• Wan-2.1-T2V-1.3B-480P：原始生成需要 184 秒，TurboDiffusion 仅需 1.9 秒。

• Wan-2.1-T2V-14B-720P：原始生成需要 4767 秒，TurboDiffusion 仅需 24 秒。

• Wan-2.1-T2V-14B-480P：原始生成需要 1676 秒，TurboDiffusion 仅需 9.9 秒。

可用模型

框架提供了多个预训练权重，支持 480p 或 720p 分辨率视频生成：

• TurboWan2.2-I2V-A14B-720P：最佳分辨率为 720p。

• TurboWan2.1-T2V-1.3B-480P：最佳分辨率为 480p。

• TurboWan2.1-T2V-14B-480P：最佳分辨率为 480p。

• TurboWan2.1-T2V-14B-720P：最佳分辨率为 720p。

安装要求

基础环境要求为 python>=3.9 和 torch>=2.7.0。推荐使用 torch==2.8.0 以避免显存溢出（OOM）问题。

可以通过 pip 安装：pip install turbodiffusion --no-build-isolation。

若要启用基于 SageAttention 的快速 SLA 前向计算，需要额外安装 SpargeAttn：pip install git+https://github.com/thu-ml/SpargeAttn.git --no-build-isolation。

推理指南

对于显存大于 40GB 的 GPU（如 H100），建议使用未量化的模型。对于 RTX 5090 或 RTX 4090，建议使用带 -quant 后缀的量化模型，并在命令中添加 --quant_linear 参数。

用户需要先下载 VAE 权重 Wan2.1_VAE.pth 和 umT5 文本编码器权重。

文本生成视频（T2V）推理

使用 turbodiffusion/inference/wan2.1_t2v_infer.py 脚本，可以设置采样步数（通常 1 到 4 步）、提示词（prompt）、分辨率和注意力类型（推荐使用 sagesla）。

图像生成视频（I2V）推理

使用 turbodiffusion/inference/wan2.2_i2v_infer.py 脚本。该模式需要加载高噪声和低噪声两个模型权重，支持自适应分辨率和 ODE 采样模式。

此外，在 turbodiffusion/serve/ 目录下还提供了基于终端的交互式推理工具，支持多轮生成而无需重新加载模型。

训练与微调

仓库提供了基于 Wan2.1 及其合成数据的训练代码。训练构建在 rCM 代码库之上，支持 FSDP2、Ulysses CP 和选择性激活检查点（SAC）。

白盒 SLA 训练

通过对齐 SLA 模型与全注意力预训练模型的预测结果进行训练。这种方式比黑盒训练更不敏感于训练数据，且能有效减轻分布偏移。

模型合并

训练完成后，可以使用 turbodiffusion/scripts/merge_models.py 将 SLA 训练的参数更新合并到 rCM 权重中，使 rCM 模型能够进行稀疏注意力推理。

社区与后续计划

• ComfyUI 集成：社区已经开发了 Comfyui_turbodiffusion 插件。

• 路线图：开发团队计划优化基础设施以实现更好的并行化，整合 vLLM-Omni，支持更多视频生成模型（包括自回归模型），并进行更多硬件层面的算子优化。

引用信息

该项目关联多篇学术论文，包括关于 TurboDiffusion 加速框架、SageAttention 8位注意力机制、SLA 稀疏线性注意力以及 rCM 扩散蒸馏的研究。项目采用 Apache-2.0 开源协议。

原文：https://github.com/thu-ml/TurboDiffusion

评论：https://news.ycombinator.com/item?id=46388907