美团 AI 开源!一段音频驱动无限时长说话视频,嘴唇/头部/表情全同步,支持 ComfyUI 一键部署

张开发
2026/4/21 9:50:54 15 分钟阅读

分享文章

美团 AI 开源!一段音频驱动无限时长说话视频,嘴唇/头部/表情全同步,支持 ComfyUI 一键部署
美团 AI 开源一段音频驱动无限时长说话视频嘴唇/头部/表情全同步支持 ComfyUI 一键部署一句话介绍InfiniteTalk 是美团 MeiGen-AI 团队开源的音频驱动视频生成框架基于 Wan2.1-14B 大模型支持图片/视频转说话视频无限时长生成嘴唇、头部动作、身体姿态、面部表情全部跟着音频走。目录1. 先看效果这不是换脸是全身都在说话2. 它能做什么核心特性3. 技术架构稀疏帧视频配音框架4. 快速上手安装 推理5. 进阶玩法加速 / 低显存 / 多人 / ComfyUI6. 关键参数速查表7. 适用场景与局限8. 总结1. 先看效果这不是换脸是全身都在说话传统的数字人或说话头技术通常只做一件事让嘴唇跟着音频动。但现实中人说话时不只是嘴在动——头会点、身体会晃、眉毛会挑、眼神会变。只有嘴动的数字人看起来总是有点假。InfiniteTalk 的目标是给一段音频让视频里的人从头到脚都跟着说话。Video-to-Video给一段原始视频 一段新音频生成配音后的新视频保留原视频的镜头运动️Image-to-Video给一张人物图片 一段音频直接生成说话视频效果演示视频可在 GitHub 仓库和 项目主页 查看。 GitHubhttps://github.com/MeiGen-AI/InfiniteTalk 论文arXiv 2508.14033 模型HuggingFace MeiGen-AI/InfiniteTalk2. 核心特性特性说明稀疏帧视频配音不只同步嘴唇同时对齐头部运动、身体姿态、面部表情⏱️无限时长生成Streaming 模式支持任意长度视频不受时长限制✨稳定性更强相比 MultiTalk手部/身体变形问题明显减少嘴唇同步更准在嘴唇同步精度上超越 MultiTalk️双模式支持V2V视频转视频 I2V图片转视频两种输入方式多人动画支持多人同时说话的场景⚡多种加速方案TeaCache / int8量化 / FusionX LoRA8步/ lightx2v4步️低显存支持--num_persistent_param_in_dit 0可在低显存 GPU 上运行️ComfyUI 支持已有社区 ComfyUI 节点可视化工作流3. 技术架构稀疏帧视频配音框架整体思路InfiniteTalk 提出了一种**稀疏帧视频配音Sparse-Frame Video Dubbing**框架。传统方法的问题逐帧处理每帧独立生成时序一致性差长视频容易漂移。InfiniteTalk 的解法不是逐帧生成而是选取稀疏关键帧作为锚点在关键帧之间进行插值和传播从而保证时序一致性同时支持无限时长。三大组件输入视频/图片 音频 │ ▼ ┌─────────────────────────────────────────┐ │ 音频编码器chinese-wav2vec2-base │ │ 提取音频的语音特征音素、韵律、节奏 │ └────────────────┬────────────────────────┘ │ 音频条件向量 ▼ ┌─────────────────────────────────────────┐ │ 视频生成主干Wan2.1-I2V-14B │ │ 14B 参数的图像到视频扩散模型 │ │ 负责生成高质量、时序一致的视频帧 │ └────────────────┬────────────────────────┘ │ 注入音频条件 ▼ ┌─────────────────────────────────────────┐ │ InfiniteTalk 音频条件权重 │ │ 将音频特征注入到视频生成过程中 │ │ 控制嘴唇、头部、表情与音频的对齐 │ └─────────────────────────────────────────┘ │ ▼ 输出音频驱动的说话视频480P / 720P底座模型选择InfiniteTalk 选择了Wan2.1-I2V-14B-480P作为视频生成底座这是阿里万象团队开源的 14B 参数图像到视频扩散模型在视频质量和时序一致性上表现优秀。音频编码器使用腾讯游戏的chinese-wav2vec2-base对中文语音有良好的支持。4. 快速上手安装 推理环境安装# 1. 创建 conda 环境conda create-nmultitalkpython3.10conda activate multitalk# 2. 安装 PyTorch xformersCUDA 12.1pipinstalltorch2.4.1torchvision0.19.1torchaudio2.4.1\--index-url https://download.pytorch.org/whl/cu121 pipinstall-Uxformers0.0.28\--index-url https://download.pytorch.org/whl/cu121# 3. 安装 flash-attn加速注意力计算pipinstallmisaki[en]ninja psutil packaging wheel pipinstallflash_attn2.7.4.post1# 4. 安装其他依赖pipinstall-rrequirements.txt condainstall-cconda-forge librosa# 5. 安装 FFmpeg视频处理必需condainstall-cconda-forge ffmpeg下载预训练模型# 底座视频生成模型约 30GBhuggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P\--local-dir ./weights/Wan2.1-I2V-14B-480P# 音频编码器huggingface-cli download TencentGameMate/chinese-wav2vec2-base\--local-dir ./weights/chinese-wav2vec2-base huggingface-cli download TencentGameMate/chinese-wav2vec2-base\model.safetensors--revisionrefs/pr/1\--local-dir ./weights/chinese-wav2vec2-base# InfiniteTalk 音频条件权重huggingface-cli download MeiGen-AI/InfiniteTalk\--local-dir ./weights/InfiniteTalk最简推理单卡 480Ppython generate_infinitetalk.py\--ckpt_dirweights/Wan2.1-I2V-14B-480P\--wav2vec_dirweights/chinese-wav2vec2-base\--infinitetalk_dirweights/InfiniteTalk/single/infinitetalk.safetensors\--input_jsonexamples/single_example_image.json\--sizeinfinitetalk-480\--sample_steps40\--modestreaming\--motion_frame9\--save_filemy_result--mode streaming是无限时长生成的关键参数不加这个参数只能生成短片段。5. 进阶玩法720P 高清输出# 只需把 --size 改为 infinitetalk-720python generate_infinitetalk.py\...\--sizeinfinitetalk-720\--save_filemy_result_720p低显存模式# 加上 --num_persistent_param_in_dit 0显存占用大幅降低python generate_infinitetalk.py\...\--num_persistent_param_in_dit0\--save_filemy_result_lowvram多卡并行推理8 卡示例GPU_NUM8torchrun--nproc_per_node$GPU_NUM--standalone\generate_infinitetalk.py\--ckpt_dirweights/Wan2.1-I2V-14B-480P\--wav2vec_dirweights/chinese-wav2vec2-base\--infinitetalk_dirweights/InfiniteTalk/single/infinitetalk.safetensors\--dit_fsdp--t5_fsdp\--ulysses_size$GPU_NUM\--input_jsonexamples/single_example_image.json\--sizeinfinitetalk-480\--sample_steps40\--modestreaming\--motion_frame9\--save_filemy_result_multigpu多人说话动画# 使用 multi 版本的权重python generate_infinitetalk.py\--infinitetalk_dirweights/InfiniteTalk/multi/infinitetalk.safetensors\--input_jsonexamples/multi_example_image.json\...FusionX LoRA 加速仅需 8 步# 下载 FusionX LoRA 后--sample_steps 从 40 降到 8速度提升 5xpython generate_infinitetalk.py\--lora_dirweights/Wan2.1_I2V_14B_FusionX_LoRA.safetensors\--lora_scale1.0\--sample_text_guide_scale1.0\--sample_audio_guide_scale2.0\--sample_steps8\--sample_shift2\--num_persistent_param_in_dit0\...Gradio 可视化界面python app.py\--ckpt_dirweights/Wan2.1-I2V-14B-480P\--wav2vec_dirweights/chinese-wav2vec2-base\--infinitetalk_dirweights/InfiniteTalk/single/infinitetalk.safetensors\--num_persistent_param_in_dit0\--motion_frame96. 关键参数速查表参数说明推荐值--mode streaming无限时长生成模式长视频必选--mode clip单块短视频生成短片段测试用--size infinitetalk-480480P 输出默认速度快--size infinitetalk-720720P 输出高清场景--sample_steps扩散采样步数40标准/ 8FusionX/ 4lightx2v--sample_audio_guide_scale音频 CFG 强度3~5不用LoRA/ 2用LoRA--sample_text_guide_scale文本 CFG 强度5不用LoRA/ 1用LoRA--motion_frame运动帧数9默认--max_frame_num最大帧数1000约40秒默认--num_persistent_param_in_dit 0低显存模式显存不足时必加--use_teacacheTeaCache 加速推荐开启--quant fp8fp8 量化进一步降低显存7. 适用场景与局限适用场景✅视频配音给外语视频配中文音频嘴型自动对齐✅数字人制作一张照片 一段语音生成说话视频✅内容创作短视频、课程、演讲视频的快速制作✅多语言本地化影视内容的多语言版本制作✅虚拟主播基于静态图片生成动态说话形象已知局限场景局限说明I2V 超过 1 分钟颜色漂移会变明显建议用图片转视频脚本辅助V2V 镜头控制模型会模仿原视频镜头运动但不完全一致FusionX LoRA超过 1 分钟时颜色漂移加剧ID 保持性下降量化模型仅支持单卡推理8. 总结InfiniteTalk 是目前开源社区中音频驱动说话视频生成方向的强力选手基于 14B 参数的 Wan2.1 大模型视频质量有保障稀疏帧配音框架解决了长视频时序一致性问题不只同步嘴唇头部/身体/表情全部跟着音频走多种加速方案TeaCache / 量化 / LoRA覆盖从消费级到多卡服务器的各种场景ComfyUI 和 Gradio 双支持门槛低推荐指数⭐⭐⭐⭐⭐无论你是做数字人、视频配音、还是 AI 内容创作这个项目都值得收藏。 GitHubhttps://github.com/MeiGen-AI/InfiniteTalk 论文arXiv 2508.14033 模型HuggingFace MeiGen-AI/InfiniteTalk 项目主页https://meigen-ai.github.io/InfiniteTalk/标签#数字人 #音频驱动 #视频生成 #说话视频 #InfiniteTalk #美团AI #开源项目 #ComfyUI #Wan2.1

更多文章