Wan2.1-T2V-1.3B性能评测:如何在多个基准测试中超越SOTA模型

张开发
2026/6/6 11:08:15 15 分钟阅读

分享文章

Wan2.1-T2V-1.3B性能评测:如何在多个基准测试中超越SOTA模型
Wan2.1-T2V-1.3B性能评测如何在多个基准测试中超越SOTA模型【免费下载链接】Wan2.1-T2V-1.3B-Diffusers项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-T2V-1.3B-DiffusersWan2.1-T2V-1.3B是一款革命性的文本到视频生成模型它以仅1.3B的参数量在多个基准测试中超越了现有SOTA模型同时保持了对消费级GPU的友好支持。这款模型不仅性能卓越还具备令人惊叹的计算效率为视频创作领域带来了新的可能性。 模型概述小参数大能力Wan2.1-T2V-1.3B是Wan2.1视频生成模型系列的轻量级版本尽管参数量仅为1.3B却展现出了超越许多更大模型的性能。该模型基于扩散Transformer架构结合了创新的时空变分自编码器VAE和高效的训练策略实现了在视频生成质量和计算效率之间的完美平衡。模型的核心优势包括出色的生成质量在多个基准测试中超越SOTA仅需8.19GB VRAM兼容大多数消费级GPU支持480P视频生成在RTX 4090上约4分钟即可完成5秒视频多任务支持文本到视频、图像到视频、视频编辑等强大的视觉文本生成能力支持中英文文本生成 性能评测超越SOTA的关键指标我们使用Wan-Bench框架对T2V-1.3B模型进行了全面评估结果显示这个更小的1.3B模型在整体指标上超越了更大的开源模型充分证明了Wan2.1架构和数据构建流程的有效性。与SOTA模型的对比在精心设计的1,035个内部提示词测试中Wan2.1与领先的开源和闭源模型进行了全面比较。测试覆盖14个主要维度和26个子维度通过基于各维度重要性的加权平均计算总分。结果显示Wan2.1在与开源和闭源模型的比较中均表现出优越性能。计算效率不同GPU上的表现我们在不同GPU上测试了Wan2.1不同模型的计算效率结果以总时间秒/峰值GPU内存GB的格式呈现。这一测试展示了Wan2.1-T2V-1.3B在各种硬件配置下的出色表现特别是在消费级GPU上的高效运行能力。 核心技术创新Wan2.1-T2V-1.3B的卓越性能源于一系列关键技术创新3D变分自编码器Wan-VAE我们提出了一种新颖的3D因果VAE架构专门用于视频生成。通过结合多种策略Wan-VAE提高了时空压缩效率减少了内存使用并确保了时间因果性。与其他开源VAE相比Wan-VAE在性能效率方面表现出显著优势能够编码和解码无限长度的1080P视频而不会丢失历史时间信息。视频扩散DiT架构Wan2.1采用了主流扩散Transformer范式中的Flow Matching框架。模型架构使用T5编码器对多语言文本输入进行编码每个Transformer块中的交叉注意力将文本嵌入到模型结构中。此外我们使用具有Linear层和SiLU层的MLP来处理输入时间嵌入并单独预测六个调制参数。这种方法在相同参数规模下带来了显著的性能提升。高质量数据构建我们精心策划并去重了包含大量图像和视频数据的候选数据集。在数据整理过程中我们设计了四步数据清洗流程重点关注基本维度、视觉质量和运动质量。通过强大的数据处理管道我们能够轻松获得高质量、多样化和大规模的图像和视频训练集。 快速开始体验卓越性能要开始使用Wan2.1-T2V-1.3B只需按照以下简单步骤操作安装步骤git clone https://gitcode.com/hf_mirrors/Wan-AI/Wan2.1-T2V-1.3B-Diffusers cd Wan2.1-T2V-1.3B-Diffusers安装依赖# 确保torch 2.4.0 pip install -r requirements.txt模型下载使用huggingface-cli下载模型pip install huggingface_hub[cli] huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local-dir ./Wan2.1-T2V-1.3B-Diffusers或者使用modelscope-clipip install modelscope modelscope download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local_dir ./Wan2.1-T2V-1.3B-Diffusers运行文本到视频生成使用Diffusers直接运行Wanimport torch from diffusers import AutoencoderKLWan, WanPipeline from diffusers.utils import export_to_video model_id Wan-AI/Wan2.1-T2V-1.3B-Diffusers vae AutoencoderKLWan.from_pretrained(model_id, subfoldervae, torch_dtypetorch.float32) pipe WanPipeline.from_pretrained(model_id, vaevae, torch_dtypetorch.bfloat16) pipe.to(cuda) prompt 一只猫在草地上行走真实感 negative_prompt 明亮的色调曝光过度静态模糊的细节字幕风格化作品绘画图像静止整体灰暗最差质量低质量JPEG压缩残留丑陋不完整多余的手指画得不好的手画得不好的脸变形毁容畸形的四肢融合的手指静止画面凌乱的背景三条腿背景中有很多人向后走 output pipe( promptprompt, negative_promptnegative_prompt, height480, width832, num_frames81, guidance_scale5.0 ).frames[0] export_to_video(output, output.mp4, fps15) 结论重新定义视频生成标准Wan2.1-T2V-1.3B以其1.3B的参数量在保持出色性能的同时实现了对消费级GPU的友好支持。通过创新的架构设计和高效的训练策略该模型在多个基准测试中超越了SOTA为视频生成领域树立了新的标准。无论是创意团队还是学术研究人员Wan2.1-T2V-1.3B都提供了一个高质量、易于使用的基础模型有望推动视频创作社区的快速发展和视频技术的迅速进步。 引用如果您觉得我们的工作有帮助请引用我们article{wan2.1, title {Wan: Open and Advanced Large-Scale Video Generative Models}, author {Wan Team}, journal {}, year {2025} } 许可协议本仓库中的模型采用Apache 2.0许可证。我们对您生成的内容不主张任何权利授予您使用它们的自由同时确保您的使用符合本许可证的规定。您对模型的使用负全部责任不得涉及分享任何违反适用法律的内容、对个人或群体造成伤害、传播旨在造成伤害的个人信息、传播错误信息或针对弱势群体。有关限制的完整列表和您的权利详情请参阅许可证全文。【免费下载链接】Wan2.1-T2V-1.3B-Diffusers项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-T2V-1.3B-Diffusers创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章