TurboDiffusion:视频扩散模型 100–200 倍加速
Hacker News 摘要原标题:TurboDiffusion: 100–200× Acceleration for Video Diffusion Models
TurboDiffusion 是由清华大学机器学习实验室(thu-ml)开发的官方实现方案。这是一个视频生成加速框架,在单张 RTX 5090 显卡上,它可以将端到端的扩散生成速度提高 100 至 200 倍,同时保持视频质量。
核心技术
TurboDiffusion 主要采用了以下技术实现加速:
• SageAttention:用于注意力机制的加速。
• SLA(稀疏线性注意力):进一步优化注意力模块。
• rCM(分数正则化连续时间一致性):用于时间步蒸馏,显著减少采样步数。
模型性能表现
在单张 RTX 5090 GPU 上,该框架展现了极高的推理效率。端到端时间指扩散生成的耗时,不包括文本编码和 VAE 解码。
• Wan-2.2-I2V-A14B-720P:原始生成需要 4549 秒,TurboDiffusion 仅需 38 秒。
• Wan-2.1-T2V-1.3B-480P:原始生成需要 184 秒,TurboDiffusion 仅需 1.9 秒。
• Wan-2.1-T2V-14B-720P:原始生成需要 4767 秒,TurboDiffusion 仅需 24 秒。
• Wan-2.1-T2V-14B-480P:原始生成需要 1676 秒,TurboDiffusion 仅需 9.9 秒。
可用模型
框架提供了多个预训练权重,支持 480p 或 720p 分辨率视频生成:
• TurboWan2.2-I2V-A14B-720P:最佳分辨率为 720p。
• TurboWan2.1-T2V-1.3B-480P:最佳分辨率为 480p。
• TurboWan2.1-T2V-14B-480P:最佳分辨率为 480p。
• TurboWan2.1-T2V-14B-720P:最佳分辨率为 720p。
安装要求
基础环境要求为 python>=3.9 和 torch>=2.7.0。推荐使用 torch==2.8.0 以避免显存溢出(OOM)问题。
可以通过 pip 安装:pip install turbodiffusion --no-build-isolation。
若要启用基于 SageAttention 的快速 SLA 前向计算,需要额外安装 SpargeAttn:pip install git+https://github.com/thu-ml/SpargeAttn.git --no-build-isolation。
推理指南
对于显存大于 40GB 的 GPU(如 H100),建议使用未量化的模型。对于 RTX 5090 或 RTX 4090,建议使用带 -quant 后缀的量化模型,并在命令中添加 --quant_linear 参数。
用户需要先下载 VAE 权重 Wan2.1_VAE.pth 和 umT5 文本编码器权重。
文本生成视频(T2V)推理
使用 turbodiffusion/inference/wan2.1_t2v_infer.py 脚本,可以设置采样步数(通常 1 到 4 步)、提示词(prompt)、分辨率和注意力类型(推荐使用 sagesla)。
图像生成视频(I2V)推理
使用 turbodiffusion/inference/wan2.2_i2v_infer.py 脚本。该模式需要加载高噪声和低噪声两个模型权重,支持自适应分辨率和 ODE 采样模式。
此外,在 turbodiffusion/serve/ 目录下还提供了基于终端的交互式推理工具,支持多轮生成而无需重新加载模型。
训练与微调
仓库提供了基于 Wan2.1 及其合成数据的训练代码。训练构建在 rCM 代码库之上,支持 FSDP2、Ulysses CP 和选择性激活检查点(SAC)。
白盒 SLA 训练
通过对齐 SLA 模型与全注意力预训练模型的预测结果进行训练。这种方式比黑盒训练更不敏感于训练数据,且能有效减轻分布偏移。
模型合并
训练完成后,可以使用 turbodiffusion/scripts/merge_models.py 将 SLA 训练的参数更新合并到 rCM 权重中,使 rCM 模型能够进行稀疏注意力推理。
社区与后续计划
• ComfyUI 集成:社区已经开发了 Comfyui_turbodiffusion 插件。
• 路线图:开发团队计划优化基础设施以实现更好的并行化,整合 vLLM-Omni,支持更多视频生成模型(包括自回归模型),并进行更多硬件层面的算子优化。
引用信息
该项目关联多篇学术论文,包括关于 TurboDiffusion 加速框架、SageAttention 8位注意力机制、SLA 稀疏线性注意力以及 rCM 扩散蒸馏的研究。项目采用 Apache-2.0 开源协议。