美团 AI 开源！一段音频驱动无限时长说话视频，嘴唇/头部/表情全同步，支持 ComfyUI 一键部署

张开发

• 2026/4/21 9:50:54 • 15 分钟阅读

分享文章

美团 AI 开源一段音频驱动无限时长说话视频嘴唇/头部/表情全同步支持 ComfyUI 一键部署一句话介绍InfiniteTalk 是美团 MeiGen-AI 团队开源的音频驱动视频生成框架基于 Wan2.1-14B 大模型支持图片/视频转说话视频无限时长生成嘴唇、头部动作、身体姿态、面部表情全部跟着音频走。目录1. 先看效果这不是换脸是全身都在说话2. 它能做什么核心特性3. 技术架构稀疏帧视频配音框架4. 快速上手安装推理5. 进阶玩法加速 / 低显存 / 多人 / ComfyUI6. 关键参数速查表7. 适用场景与局限8. 总结1. 先看效果这不是换脸是全身都在说话传统的数字人或说话头技术通常只做一件事让嘴唇跟着音频动。但现实中人说话时不只是嘴在动——头会点、身体会晃、眉毛会挑、眼神会变。只有嘴动的数字人看起来总是有点假。InfiniteTalk 的目标是给一段音频让视频里的人从头到脚都跟着说话。Video-to-Video给一段原始视频一段新音频生成配音后的新视频保留原视频的镜头运动️Image-to-Video给一张人物图片一段音频直接生成说话视频效果演示视频可在 GitHub 仓库和项目主页查看。 GitHubhttps://github.com/MeiGen-AI/InfiniteTalk 论文arXiv 2508.14033 模型HuggingFace MeiGen-AI/InfiniteTalk2. 核心特性特性说明稀疏帧视频配音不只同步嘴唇同时对齐头部运动、身体姿态、面部表情⏱️无限时长生成Streaming 模式支持任意长度视频不受时长限制✨稳定性更强相比 MultiTalk手部/身体变形问题明显减少嘴唇同步更准在嘴唇同步精度上超越 MultiTalk️双模式支持V2V视频转视频 I2V图片转视频两种输入方式多人动画支持多人同时说话的场景⚡多种加速方案TeaCache / int8量化 / FusionX LoRA8步/ lightx2v4步️低显存支持--num_persistent_param_in_dit 0可在低显存 GPU 上运行️ComfyUI 支持已有社区 ComfyUI 节点可视化工作流3. 技术架构稀疏帧视频配音框架整体思路InfiniteTalk 提出了一种**稀疏帧视频配音Sparse-Frame Video Dubbing**框架。传统方法的问题逐帧处理每帧独立生成时序一致性差长视频容易漂移。InfiniteTalk 的解法不是逐帧生成而是选取稀疏关键帧作为锚点在关键帧之间进行插值和传播从而保证时序一致性同时支持无限时长。三大组件输入视频/图片音频 │ ▼ ┌─────────────────────────────────────────┐ │ 音频编码器chinese-wav2vec2-base │ │ 提取音频的语音特征音素、韵律、节奏 │ └────────────────┬────────────────────────┘ │ 音频条件向量 ▼ ┌─────────────────────────────────────────┐ │ 视频生成主干Wan2.1-I2V-14B │ │ 14B 参数的图像到视频扩散模型 │ │ 负责生成高质量、时序一致的视频帧 │ └────────────────┬────────────────────────┘ │ 注入音频条件 ▼ ┌─────────────────────────────────────────┐ │ InfiniteTalk 音频条件权重 │ │ 将音频特征注入到视频生成过程中 │ │ 控制嘴唇、头部、表情与音频的对齐 │ └─────────────────────────────────────────┘ │ ▼ 输出音频驱动的说话视频480P / 720P底座模型选择InfiniteTalk 选择了Wan2.1-I2V-14B-480P作为视频生成底座这是阿里万象团队开源的 14B 参数图像到视频扩散模型在视频质量和时序一致性上表现优秀。音频编码器使用腾讯游戏的chinese-wav2vec2-base对中文语音有良好的支持。4. 快速上手安装推理环境安装# 1. 创建 conda 环境conda create-nmultitalkpython3.10conda activate multitalk# 2. 安装 PyTorch xformersCUDA 12.1pipinstalltorch2.4.1torchvision0.19.1torchaudio2.4.1\--index-url https://download.pytorch.org/whl/cu121 pipinstall-Uxformers0.0.28\--index-url https://download.pytorch.org/whl/cu121# 3. 安装 flash-attn加速注意力计算pipinstallmisaki[en]ninja psutil packaging wheel pipinstallflash_attn2.7.4.post1# 4. 安装其他依赖pipinstall-rrequirements.txt condainstall-cconda-forge librosa# 5. 安装 FFmpeg视频处理必需condainstall-cconda-forge ffmpeg下载预训练模型# 底座视频生成模型约 30GBhuggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P\--local-dir ./weights/Wan2.1-I2V-14B-480P# 音频编码器huggingface-cli download TencentGameMate/chinese-wav2vec2-base\--local-dir ./weights/chinese-wav2vec2-base huggingface-cli download TencentGameMate/chinese-wav2vec2-base\model.safetensors--revisionrefs/pr/1\--local-dir ./weights/chinese-wav2vec2-base# InfiniteTalk 音频条件权重huggingface-cli download MeiGen-AI/InfiniteTalk\--local-dir ./weights/InfiniteTalk最简推理单卡 480Ppython generate_infinitetalk.py\--ckpt_dirweights/Wan2.1-I2V-14B-480P\--wav2vec_dirweights/chinese-wav2vec2-base\--infinitetalk_dirweights/InfiniteTalk/single/infinitetalk.safetensors\--input_jsonexamples/single_example_image.json\--sizeinfinitetalk-480\--sample_steps40\--modestreaming\--motion_frame9\--save_filemy_result--mode streaming是无限时长生成的关键参数不加这个参数只能生成短片段。5. 进阶玩法720P 高清输出# 只需把 --size 改为 infinitetalk-720python generate_infinitetalk.py\...\--sizeinfinitetalk-720\--save_filemy_result_720p低显存模式# 加上 --num_persistent_param_in_dit 0显存占用大幅降低python generate_infinitetalk.py\...\--num_persistent_param_in_dit0\--save_filemy_result_lowvram多卡并行推理8 卡示例GPU_NUM8torchrun--nproc_per_node$GPU_NUM--standalone\generate_infinitetalk.py\--ckpt_dirweights/Wan2.1-I2V-14B-480P\--wav2vec_dirweights/chinese-wav2vec2-base\--infinitetalk_dirweights/InfiniteTalk/single/infinitetalk.safetensors\--dit_fsdp--t5_fsdp\--ulysses_size$GPU_NUM\--input_jsonexamples/single_example_image.json\--sizeinfinitetalk-480\--sample_steps40\--modestreaming\--motion_frame9\--save_filemy_result_multigpu多人说话动画# 使用 multi 版本的权重python generate_infinitetalk.py\--infinitetalk_dirweights/InfiniteTalk/multi/infinitetalk.safetensors\--input_jsonexamples/multi_example_image.json\...FusionX LoRA 加速仅需 8 步# 下载 FusionX LoRA 后--sample_steps 从 40 降到 8速度提升 5xpython generate_infinitetalk.py\--lora_dirweights/Wan2.1_I2V_14B_FusionX_LoRA.safetensors\--lora_scale1.0\--sample_text_guide_scale1.0\--sample_audio_guide_scale2.0\--sample_steps8\--sample_shift2\--num_persistent_param_in_dit0\...Gradio 可视化界面python app.py\--ckpt_dirweights/Wan2.1-I2V-14B-480P\--wav2vec_dirweights/chinese-wav2vec2-base\--infinitetalk_dirweights/InfiniteTalk/single/infinitetalk.safetensors\--num_persistent_param_in_dit0\--motion_frame96. 关键参数速查表参数说明推荐值--mode streaming无限时长生成模式长视频必选--mode clip单块短视频生成短片段测试用--size infinitetalk-480480P 输出默认速度快--size infinitetalk-720720P 输出高清场景--sample_steps扩散采样步数40标准/ 8FusionX/ 4lightx2v--sample_audio_guide_scale音频 CFG 强度3~5不用LoRA/ 2用LoRA--sample_text_guide_scale文本 CFG 强度5不用LoRA/ 1用LoRA--motion_frame运动帧数9默认--max_frame_num最大帧数1000约40秒默认--num_persistent_param_in_dit 0低显存模式显存不足时必加--use_teacacheTeaCache 加速推荐开启--quant fp8fp8 量化进一步降低显存7. 适用场景与局限适用场景✅视频配音给外语视频配中文音频嘴型自动对齐✅数字人制作一张照片一段语音生成说话视频✅内容创作短视频、课程、演讲视频的快速制作✅多语言本地化影视内容的多语言版本制作✅虚拟主播基于静态图片生成动态说话形象已知局限场景局限说明I2V 超过 1 分钟颜色漂移会变明显建议用图片转视频脚本辅助V2V 镜头控制模型会模仿原视频镜头运动但不完全一致FusionX LoRA超过 1 分钟时颜色漂移加剧ID 保持性下降量化模型仅支持单卡推理8. 总结InfiniteTalk 是目前开源社区中音频驱动说话视频生成方向的强力选手基于 14B 参数的 Wan2.1 大模型视频质量有保障稀疏帧配音框架解决了长视频时序一致性问题不只同步嘴唇头部/身体/表情全部跟着音频走多种加速方案TeaCache / 量化 / LoRA覆盖从消费级到多卡服务器的各种场景ComfyUI 和 Gradio 双支持门槛低推荐指数⭐⭐⭐⭐⭐无论你是做数字人、视频配音、还是 AI 内容创作这个项目都值得收藏。 GitHubhttps://github.com/MeiGen-AI/InfiniteTalk 论文arXiv 2508.14033 模型HuggingFace MeiGen-AI/InfiniteTalk 项目主页https://meigen-ai.github.io/InfiniteTalk/标签#数字人 #音频驱动 #视频生成 #说话视频 #InfiniteTalk #美团AI #开源项目 #ComfyUI #Wan2.1

更多文章

前端开发 2026/4/21 9:47:03

基于正负序分离控制的三相离网逆变器，带不平衡阻性负载的波形展示

基于正负序分离控制的三相离网逆变器，带不平衡阻性负载。图片为基于正序控制的和基于正负序分离控制的离网逆变器分别带载的波形。最近在调试三相离网逆变器的时候，遇到个挺有意思的情况——当负载三相阻值严重不平衡时，传统正序控制直接翻…

1. 为什么你需要告别手动编号？ 每次写技术文档或论文时，最让我头疼的就是章节编号。记得有次交项目报告，因为手动调整编号，第三章后面直接跳到了第五章，被导师用红笔圈出来批注"数学是体育老师教的？&q…

张开发

前端开发 2026/4/18 0:14:22

Malimite实战案例：分析知名iOS应用的逆向工程全过程

Malimite实战案例：分析知名iOS应用的逆向工程全过程【免费下载链接】Malimite iOS and macOS Decompiler 项目地址: https://gitcode.com/gh_mirrors/ma/Malimite Malimite是一款专为iOS和macOS平台设计的强大逆向工程工具，它集成了Ghidra反编译…

张开发

美团 AI 开源！一段音频驱动无限时长说话视频，嘴唇/头部/表情全同步，支持 ComfyUI 一键部署

最新文章

nli-MiniLM2-L6-H768精彩效果：多跳推理链（A→B→C）中B-C关系的独立验证

ESP32 LVGL8.1消息框实战：从零搭建一个数字输入弹窗（附完整代码）

如何免费完整备份Mac上的微信聊天记录：WeChatExporter终极指南

Allegro 16.6 PCB布局效率翻倍：从Move到Group，这些隐藏技巧你都会了吗？

从‘*’和‘@’聊起：NumPy数组运算的‘潜规则’与性能小秘密（附代码实测）

Windows Cleaner终极指南：5分钟解决C盘爆红问题，快速释放空间提升电脑性能

推荐文章

《前沿洞察：AI 面试季、Agent 开发痛点与人机协作架构的未来》

别再插错线了！一张图看懂USB 2.0/3.0线序与颜色定义（附ZYNQ开发板实测）

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

如何在 CGO 中正确处理带 const char- 参数的 C 回调函数

JavaScript的Symbol.unscopables：影响with语句行为的属性

一次由Nginx的proxy_pass尾随斜杠引发的重定向循环

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

基于正负序分离控制的三相离网逆变器，带不平衡阻性负载的波形展示

权威预测：2032年数字产品采样软件市场规模将达63.57亿元，产业潜力加速释放

OpenClaw 在严肃场景下的实践：迁移 Ingress NGINX

从矩阵SVD到张量T-SVD：算法原理与傅里叶变换的桥梁

当程序员养了一只猫后，我对系统稳定性的理解更深了

免ROOT实现安卓摄像头HOOK：探索微信抖音等主流App虚拟视频注入技术

MySQL 架构、存储引擎、库表操作一站式掌握

2026年AI大厂抢人，收藏这份高薪岗位指南，小白也能入行大模型！

数字人技术终极指南：从单张图片到3D可动画化虚拟人

基于二自由度车辆动力学模型的自动驾驶控制算法研究与应用

告别手动！用Word多级列表打造智能文档的章节编号体系

Malimite实战案例：分析知名iOS应用的逆向工程全过程