EVA Efficient Reinforcement Learning for End-to-End Video Agent

张开发
2026/5/1 7:38:18 15 分钟阅读

分享文章

EVA Efficient Reinforcement Learning for End-to-End Video Agent
EVA: Efficient Reinforcement Learning for End-to-End Video AgentAuthors:Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei LuDeep-Dive Summary:EVA面向端到端视频智能体的高效强化学习Yaolun Zhang* Ruohui Wang* Jiahao Wang*† Yepeng Tang Xuanyu Zheng Haonan Duan Hao Lu Hanming Deng Lewei Lu† 商汤研究院摘要基于多模态大语言模型MLLMs的视频理解仍然面临挑战原因在于视频的长序列token包含大量时间依赖关系和冗余帧。现有方法通常将MLLMs视为被动识别器处理完整视频或均匀采样帧而缺乏自适应推理。近期基于智能体的方法引入了外部工具但仍依赖手工设计的工作流和感知优先策略导致长视频处理效率低下。本文提出EVAEfficient Reinforcement Learning framework for End-to-End Video Agent一种端到端视频智能体的高效强化学习框架通过迭代式的摘要-规划-行动-反思推理实现先规划后感知。EVA自主决定观看什么、何时观看以及如何观看实现查询驱动的视频高效理解。为训练此类智能体我们设计了一个简单而有效的三阶段学习流程——包括监督微调SFT、Kahneman-Tversky优化KTO和广义奖励策略优化GRPO——弥合监督模仿与强化学习之间的差距。我们还为每个阶段构建了高质量数据集支持稳定且可复现的训练。我们在六个视频理解基准上评估EVA展示了其综合能力。与现有基线相比EVA相比通用MLLM基线提升6-12%相比先前自适应智能体方法进一步提升1-3%。1. 引言大多数现有视频理解系统仍将MLLMs视为被动识别器——它们处理完整视频或均匀采样帧来生成响应没有任何选择性注意或自适应推理的概念[18,33,47]如图1所示。近期基于智能体的方法通过引入外部工具如帧选择模块[17,28,37]向前迈进了一步。然而这些流程在很大程度上仍是手工构建的——基于固定参数、刚性工作流和有限的探索能力如固定采样率。此外即使这些基于智能体的方法通常也是在被输入一组均匀采样帧和文本查询后才开始推理使其仍然是感知优先而非真正的规划驱动导致长视频上冗余的视觉处理和有限的推理效率。为弥合这一差距我们倡导先规划后感知范式智能体首先从文本查询进行推理决定观看什么、何时观看以及如何观看然后再接触任何视觉输入。我们将此类视频理解形式化为摘要-规划-行动-反思的迭代过程。这一范式允许智能体根据查询逐步细化其感知和推理选择性关注信息丰富的时刻同时避免不必要的计算。通过这一视角MLLM从被动视频识别器演变为积极、自适应、自主的智能体观察者。我们方法的核心在于将视觉摘要、规划、工具调用和反思思维相结合的迭代感知、推理和工具使用范式。核心挑战是使模型在此推理循环中有效运行学习如何仅基于查询而不观看视频生成初始工具调用当可用视觉信息不足时如何继续推理以及如何避免过度探索或陷入不必要的迭代。图1. 给定一个需要从超长视频超过6600秒中识别动作序列的问题传统均匀采样方法受限于MLLM的上下文长度极难采样所有关键帧来正确回答问题。至于传统智能体方法智能体也会被给予均匀采样帧和视频这已经占据了大量上下文。虽然智能体可以调用工具从特定时间范围提取帧但工具是刚性的智能体无法调整fps和分辨率导致潜在信息丢失。然而在EVA中智能体可以明智地安排token。它可以首先以低分辨率和高fps观看整个视频以获取视频概览而不消耗太多视觉token。找到关键时间范围后它将以高fps和高分辨率提取帧从而得到正确答案。为解决这一挑战我们引入三阶段训练策略。在初始训练阶段我们构建监督微调SFT冷启动数据集灌输核心视频智能体能力工具调用格式、交错图像-文本推理、帧级理解和基本帧选择策略。这一冷启动阶段为模型提供稳定的行为先验便于后续更激进的优化。第二阶段使用由成功和失败策略轨迹组成的Kahneman-Tversky优化KTO[10]数据集。KTO引导智能体偏好有效策略同时避免常见失败模式通过在GRPO[32]之前纠正这些已知坏案例它改善了在线策略优化期间的收敛性、鲁棒性和稳定性。第三阶段我们引入基于广义奖励策略优化GRPO的在线强化学习阶段采用多种数据驱动奖励用于开放式和多项选择问答QA。这些标准而灵活的奖励信号平衡推理深度与计算效率实现可扩展的自适应策略学习以进行视频理解。这些机制共同使智能体学习多轮感知、规划和工具使用的自适应策略确保有效视频理解同时控制冗余计算。为确保稳定且可复现的智能体强化学习我们为SFT冷启动和强化学习阶段策划并构建了一系列高质量数据集。具体而言我们引入EVA-SFT、EVA-KTO和EVA-RL数据集。EVA-SFT包含10k高质量样本涵盖通用和特定任务的智能体训练数据。EVA-KTO包含11k标记的帧选择策略捕获多样化的成功和失败轨迹以指导策略优化。EVA-RL包含9.6k开放式视频QA对和1.1k多项选择题。总体而言我们的主要贡献总结如下新颖高效的基于RL的视频智能体EVA。我们提出具有迭代摘要-规划-行动-反思循环的先规划后感知框架实现高效且可解释的视频理解。简单而有效的三阶段端到端训练流程。我们的框架将SFT冷启动、KTO校正和GRPO优化结合为可扩展流程联合增强推理深度和计算效率。高质量数据集和强实证结果。我们构建EVA-SFT、EVA-KTO和EVA-RL数据集以支持稳定训练在多个视频基准上达到最先进性能。2. 相关工作智能体视频理解。与传统将输入视频视为静态上下文的多模态大语言模型MLLMs[1,13,25,47]相比智能体视频理解方法使基于MLLM的智能体能够使用外部工具主动探索视频内容。根据所使用工具的类型现有方法大致可分为两类。Ego-R1[35]和M3-Agent[23]利用辅助视觉理解的工具如调用外部MLLM API或传统视觉模型因此严重依赖工具性能而非基础模型固有的多模态能力。第二类工作[16,17,26,40]为MLLMs配备采样工具从视频中提取部分或时间视觉信息。这些方法主要利用智能体的规划和识别能力但仍将MLLM视为刚性工作流中的固定组件——接收视频输入并沿单一控制维度生成预定参数。相比之下我们的工作将真正的自主性还给智能体使其不仅能决定观察视频的哪些部分还能如何观察灵活控制空间分辨率和时间粒度。工具集成推理训练。为基于LLM的智能体配备各种外部工具使其能够与外部世界交互[20,29,42]甚至自主生成和优化复杂工作流[43,46]。随着基础模型被训练产生扩展思维链以解决复杂推理任务[9,27]近期研究[12,21]进一步将工具调用整合到推理过程中并通过强化学习优化。在本工作中我们训练基于MLLM的智能体迭代规划和选择信息帧使其能够根据查询和视觉内容灵活调整工作流。3. 方法3.1. 问题设定我们将主动视频理解问题形式化为马尔可夫决策过程MDP。在每个时间步t tt智能体观察一个信念状态s t { q , h t , F t } , ( 1 ) s_{t} \{q,h_{t},F_{t}\}, \quad (1)st​{q,ht​,Ft​},(1)其中q qq表示用户查询h t h_tht​代表交错的文本-帧历史F t F_tFt​对应从工具调用获得的视觉证据帧。智能体的策略参数化为π θ ( a t ∣ s t ) \pi_{\theta}(a_t \mid s_t)πθ​(at​∣st​)。在视频理解任务中回答查询并不总是需要观察均匀采样帧。在某些情况下此类帧是冗余的而在其他情况下它们无法提供正确推理的充分证据——更糟糕的是预先呈现完整视频可能通过将规划者锚定到虚假或嘈杂的视觉线索而误导规划[16,28,37]。因此在初始步骤s 0 s_0s0​模型仅被提供查询q qq在我们的设置中没有任何视觉信息。为使智能体能够自主规划其视觉token的使用我们设计了一个灵活的帧选择工具允许时间和空间控制。参数描述start_time时间窗口的起始end_time时间窗口的结束n_frames要采样的帧数resize空间下采样比率start_time和end_time指定时间窗口而n_frames表示在此区间内要采样的帧数。resize参数实现灵活的缩放操作。直观上选择更多帧使智能体更好捕获动态动作而选择更高空间分辨率使其从每帧提取更精细的视觉细节。这一工具模式提供了广泛的探索空间鼓励智能体学习如何在各轮次中分配时间和空间信息以得出精确答案。传统智能体方法可视为我们提出的EVA框架的约束实例。它们通常采用固定工作流——如从开始处理整个视频——并提供有限的行动自由如仅选择时间范围。相比之下EVA不仅能执行这些人工设计的工作流还能根据查询和提取的视觉证据动态调整其规划从而实现更通用灵活Original Abstract:Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.PDF Link:2603.22918v1部分平台可能图片显示异常请以我的博客内容为准

更多文章