Wan2.1-T2V-1.3B性能评测：如何在多个基准测试中超越SOTA模型

张开发

• 2026/6/6 11:08:15 • 15 分钟阅读

分享文章

Wan2.1-T2V-1.3B性能评测如何在多个基准测试中超越SOTA模型【免费下载链接】Wan2.1-T2V-1.3B-Diffusers项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-T2V-1.3B-DiffusersWan2.1-T2V-1.3B是一款革命性的文本到视频生成模型它以仅1.3B的参数量在多个基准测试中超越了现有SOTA模型同时保持了对消费级GPU的友好支持。这款模型不仅性能卓越还具备令人惊叹的计算效率为视频创作领域带来了新的可能性。模型概述小参数大能力Wan2.1-T2V-1.3B是Wan2.1视频生成模型系列的轻量级版本尽管参数量仅为1.3B却展现出了超越许多更大模型的性能。该模型基于扩散Transformer架构结合了创新的时空变分自编码器VAE和高效的训练策略实现了在视频生成质量和计算效率之间的完美平衡。模型的核心优势包括出色的生成质量在多个基准测试中超越SOTA仅需8.19GB VRAM兼容大多数消费级GPU支持480P视频生成在RTX 4090上约4分钟即可完成5秒视频多任务支持文本到视频、图像到视频、视频编辑等强大的视觉文本生成能力支持中英文文本生成性能评测超越SOTA的关键指标我们使用Wan-Bench框架对T2V-1.3B模型进行了全面评估结果显示这个更小的1.3B模型在整体指标上超越了更大的开源模型充分证明了Wan2.1架构和数据构建流程的有效性。与SOTA模型的对比在精心设计的1,035个内部提示词测试中Wan2.1与领先的开源和闭源模型进行了全面比较。测试覆盖14个主要维度和26个子维度通过基于各维度重要性的加权平均计算总分。结果显示Wan2.1在与开源和闭源模型的比较中均表现出优越性能。计算效率不同GPU上的表现我们在不同GPU上测试了Wan2.1不同模型的计算效率结果以总时间秒/峰值GPU内存GB的格式呈现。这一测试展示了Wan2.1-T2V-1.3B在各种硬件配置下的出色表现特别是在消费级GPU上的高效运行能力。核心技术创新Wan2.1-T2V-1.3B的卓越性能源于一系列关键技术创新3D变分自编码器Wan-VAE我们提出了一种新颖的3D因果VAE架构专门用于视频生成。通过结合多种策略Wan-VAE提高了时空压缩效率减少了内存使用并确保了时间因果性。与其他开源VAE相比Wan-VAE在性能效率方面表现出显著优势能够编码和解码无限长度的1080P视频而不会丢失历史时间信息。视频扩散DiT架构Wan2.1采用了主流扩散Transformer范式中的Flow Matching框架。模型架构使用T5编码器对多语言文本输入进行编码每个Transformer块中的交叉注意力将文本嵌入到模型结构中。此外我们使用具有Linear层和SiLU层的MLP来处理输入时间嵌入并单独预测六个调制参数。这种方法在相同参数规模下带来了显著的性能提升。高质量数据构建我们精心策划并去重了包含大量图像和视频数据的候选数据集。在数据整理过程中我们设计了四步数据清洗流程重点关注基本维度、视觉质量和运动质量。通过强大的数据处理管道我们能够轻松获得高质量、多样化和大规模的图像和视频训练集。快速开始体验卓越性能要开始使用Wan2.1-T2V-1.3B只需按照以下简单步骤操作安装步骤git clone https://gitcode.com/hf_mirrors/Wan-AI/Wan2.1-T2V-1.3B-Diffusers cd Wan2.1-T2V-1.3B-Diffusers安装依赖# 确保torch 2.4.0 pip install -r requirements.txt模型下载使用huggingface-cli下载模型pip install huggingface_hub[cli] huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local-dir ./Wan2.1-T2V-1.3B-Diffusers或者使用modelscope-clipip install modelscope modelscope download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local_dir ./Wan2.1-T2V-1.3B-Diffusers运行文本到视频生成使用Diffusers直接运行Wanimport torch from diffusers import AutoencoderKLWan, WanPipeline from diffusers.utils import export_to_video model_id Wan-AI/Wan2.1-T2V-1.3B-Diffusers vae AutoencoderKLWan.from_pretrained(model_id, subfoldervae, torch_dtypetorch.float32) pipe WanPipeline.from_pretrained(model_id, vaevae, torch_dtypetorch.bfloat16) pipe.to(cuda) prompt 一只猫在草地上行走真实感 negative_prompt 明亮的色调曝光过度静态模糊的细节字幕风格化作品绘画图像静止整体灰暗最差质量低质量JPEG压缩残留丑陋不完整多余的手指画得不好的手画得不好的脸变形毁容畸形的四肢融合的手指静止画面凌乱的背景三条腿背景中有很多人向后走 output pipe( promptprompt, negative_promptnegative_prompt, height480, width832, num_frames81, guidance_scale5.0 ).frames[0] export_to_video(output, output.mp4, fps15) 结论重新定义视频生成标准Wan2.1-T2V-1.3B以其1.3B的参数量在保持出色性能的同时实现了对消费级GPU的友好支持。通过创新的架构设计和高效的训练策略该模型在多个基准测试中超越了SOTA为视频生成领域树立了新的标准。无论是创意团队还是学术研究人员Wan2.1-T2V-1.3B都提供了一个高质量、易于使用的基础模型有望推动视频创作社区的快速发展和视频技术的迅速进步。引用如果您觉得我们的工作有帮助请引用我们article{wan2.1, title {Wan: Open and Advanced Large-Scale Video Generative Models}, author {Wan Team}, journal {}, year {2025} } 许可协议本仓库中的模型采用Apache 2.0许可证。我们对您生成的内容不主张任何权利授予您使用它们的自由同时确保您的使用符合本许可证的规定。您对模型的使用负全部责任不得涉及分享任何违反适用法律的内容、对个人或群体造成伤害、传播旨在造成伤害的个人信息、传播错误信息或针对弱势群体。有关限制的完整列表和您的权利详情请参阅许可证全文。【免费下载链接】Wan2.1-T2V-1.3B-Diffusers项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-T2V-1.3B-Diffusers创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

更多文章

前端开发 2026/6/6 11:04:20

告别手动点点点：用Pywinauto给微信/QQ写个自动回复机器人（Python实战）

用Pywinauto打造微信/QQ自动回复机器人的终极指南1. 为什么需要桌面自动化机器人每天重复点击"收到"按钮回复几十条消息？游戏挂机时总被队友抱怨回复太慢？客服工作被简单咨询淹没？这些场景正是桌面自动化技术的用武之地。Pywinauto…

UE4分屏革命：用C打造完全自定义的多人视口布局当四个玩家挤在沙发上争夺同一个屏幕时，为什么总要忍受千篇一律的均等分屏？在《胡闹厨房》的混乱厨房里，主厨可能需要更大的视野；在《FIFA》的球场上，观众席或…

张开发

前端开发 2026/6/2 2:41:06

第06章构建工单知识库

第06章构建工单知识库作者：亢AIRTC　|　源码地址：https://github.com/kang-airtc/ollama-mini-book 在前面的章节中，笔者把文本切片、向量化、ChromaDB 写入查询的零件逐一调通。本章把这些零件组装到一起，搭建本书贯穿案例的核…

张开发

Wan2.1-T2V-1.3B性能评测：如何在多个基准测试中超越SOTA模型

最新文章

MATLAB混沌系统可视化工具包：相轨迹、庞卡莱截面与多模式分岔图一键生成

树莓派4B到手第一步：别急着插电，先搞定这3件事（散热、组装、系统盘制作避坑）

3步掌握无损音乐下载：网易云音乐FLAC下载终极指南

如何高效解放双手：MAA助手的完整自动化解决方案

抖音批量下载工具架构解析：混合策略引擎与异步任务调度系统

微软开源MXC：给你的AI Agent套上安全沙箱，3分钟上手配置

推荐文章

STM32F4驱动AD7606避坑指南：SPI配置、时序调试与电压换算全流程

TVA与其他AI智能体的本质区别与联系（10）

使用 LangGraph 构建复杂的自动化测试用例“生成-执行-修复”循环

MTKClient终极指南：5分钟快速修复联发科设备变砖问题

Parallels Desktop 17保姆级教程：给CentOS 7虚拟机配个固定IP，开发调试再也不怕IP变来变去

Steam游戏《Turing Complete》通关笔记：手把手教你从逻辑门到可编程CPU的完整搭建流程

相关文章

终极ESP32 Arduino开发指南：从零开始快速上手物联网项目

如何打造个人专属的数字记忆库：WeChatMsg终极数据管理指南

Windows 11下SecureCRT 8.5安装激活全攻略（附注册机与避坑指南）

Gemini推送通知优化终极手册（2024Q2最新API v1.5实测数据+AB测试报告）

【Gemini社交媒体运营实战指南】：20年AI营销专家亲授7大高转化内容公式

保姆级教程：在Ubuntu 22.04上为GStreamer 1.22编译NVIDIA NVENC/NVDEC插件（含CUDA 12.x适配）

分享文章

更多文章

告别手动点点点：用Pywinauto给微信/QQ写个自动回复机器人（Python实战）

GHelper：华硕笔记本硬件控制框架的技术实现与架构解析

0.0.0.0：服务器的“超级大耳朵“

SenseNova-U1社区资源与最佳实践：从新手到专家的完整学习路径 [特殊字符]

哔哩下载姬DownKyi：3步彻底解决B站视频下载与管理的所有痛点

从3DGS到智能工厂数字孪生，只要一张图

2026年电竞键盘推荐|从磁轴到光轴，谁才是FPS游戏上分的性能天花板？

告别printf重定向！用sprintf和自定义函数打造更轻量的STM32串口调试方案

别再裸奔了！手把手教你给RocketMQ Dashboard和Broker加上双重密码锁（附5.1.3版本配置）

别只看FPS了！Unity Game视图Stats面板全解读，从‘Batches’到‘Tris’的优化指南

UE4本地多人分屏玩不爽？手把手教你用C++自定义每个玩家的屏幕区域（附源码）

第06章构建工单知识库