CVPR‘26 开源| Rex-Omni检测万物：目标检测新范式

张开发

• 2026/4/29 13:09:05 • 15 分钟阅读

分享文章

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达3D视觉工坊很荣幸邀请到了华南理工大学与IDEA研究院联合培养博士生蒋擎为大家着重分享他们团队的工作。如果您有相关内容需要分享欢迎文末联系我们。Detect Anything via Next Point Prediction论文:https://arxiv.org/pdf/2510.12798主页:https://rex-omni.github.io/代码:https://github.com/IDEA-Research/Rex-Omni直播信息时间2026年03月25日(周三)1900主题CVPR26开源| Rex-Omni 检测万物目标检测新范式直播平台3D视觉工坊视频号点击按钮预约直播3D视觉工坊哔哩哔哩也将同步直播主讲嘉宾蒋擎华南理工大学与IDEA研究院联合培养博士生华南理工大学与IDEA研究院粤港澳大湾区数字经济研究院联合培养博士生师从张磊教授。研究领域专注于多模态大语言模型、开集检测及计算机视觉前沿研究。学术成果在CVPR、ICLR、ICCV、ECCV、TPAMI等国际顶级会议与期刊发表多篇高影响力论文。开源贡献长期深耕AI开源社区致力于构建高性能感知算法框架个人及参与项目在GitHub累计收获超过16.6K Stars。个人主页https://mountchicken.github.io/直播大纲目标检测的现状与困境传统检测器在闭集识别中的瓶颈。基于MLLM的感知模型大模型时代下视觉理解的新路径。Rex-Omni的设计理念与数据构造如何实现“检测万物”的架构创新。Rex-Omni的实验结果分析多项基准测试下的性能跨越。Rex-Omni的下游应用场景从学术研究到工业落地的新范式。参与方式注3D视觉工坊很荣幸邀请到了华南理工大学与IDEA研究院联合培养博士生蒋擎为大家着重分享他们团队的工作。如果您有相关工作需要分享欢迎联系微信cv3d009请备注宣传工作则不予通过。Rex-Omni工作详解导读对象检测长期以来一直由传统的基于坐标回归的模型主导例如YOLO、DETR和Grounding DINO。尽管近期有研究尝试利用大语言模型来解决这一任务但它们仍面临召回率低、预测重复、坐标对齐不准确等挑战。在这项工作中我们填补了这一空白提出了Rex-Omni这是一种30亿参数规模的大语言模型其在对象感知性能上达到了业界领先水平。在COCO和LVIS等基准测试中Rex-Omni在零样本环境下取得了与基于回归的模型如DINO、Grounding DINO相当甚至更优的性能。这一成果得益于三项关键设计1任务建模我们使用特殊标记来表示0到999之间的量化坐标从而降低了模型的学习难度并提高了坐标预测的效率2数据引擎我们构建了多个数据引擎来生成高质量的对象定位、指代和指向数据为训练提供了丰富的语义监督3训练流程我们采用了两阶段训练方法先对2200万条数据进行有监督微调然后通过基于GRPO的强化学习进行后期训练。这种强化学习利用几何感知奖励有效弥合了离散坐标预测与连续坐标预测之间的差距提高了框的准确性并减少了由于初始SFT阶段的教师引导性质而导致的重复预测等不良行为。除了传统的检测功能外Rex-Omni具备自然语言理解能力因此能够实现对象指代、指向、视觉提示、GUI定位、空间指代、OCR和关键点提取等多种功能这些功能都在专门的基准测试中得到了系统评估。我们认为Rex-Omni为更加通用且具备自然语言感知能力的视觉感知系统奠定了基础。效果展示我们提出了Rex-Omni一种具有强大视觉感知能力的3B参数MLLM。1)检测器在定位方面表现出色但缺乏语言理解能力。MLLMs能够很好地理解语言但在定位方面存在困难。2)检测器与MLLMs在优化难度上的差异。主要贡献Rex-Omni代表了向着统一鲁棒语言理解与精确视觉感知迈出的重要一步。通过精心整合原则性的任务公式、先进的数据引擎和复杂的双阶段训练流程我们证明了MLLM在定义下一代目标检测模型方面具有巨大潜力为视觉感知系统提供了前所未有的多功能性和真正语言感知的方法。方法如图4所示Rex-Omni建立在Qwen2.5-VL-3B-Instruct模型之上仅做了最小的架构修改。原始的Qwen2.5-VL采用绝对坐标编码方案我们调整了模型以支持相对坐标表示且未引入额外参数。具体来说我们重新利用模型词汇表中的最后1000个标记作为特殊标记每个标记对应一个从0到999的量化坐标。实验结果结果呈现在表2中。首先在MLLMs中Rex-Omni超越了包括之前拥有最先进检测性能的SEED1.5-VL在内的现有方法。在IoU阈值为0.5时Rex-Omni表现出优越的性能超过了开集检测模型Grounding DINO-SwinT和闭集检测模型DINO-R50。关键的是Rex-Omni是在零样本设置下实现这一点的这表明基于MLLM的检测方法在高度精确的边界框定位并非唯一关键因素时确实可以超越传统的基于回归的模型。然而在更严格的IoU阈值0.95下Rex-Omni的性能虽然仍然强劲但仅略微优于DAB-DETR这表明在需要极高边界框紧密度的场景中MLLM可能仍落后于传统的回归模型。尽管如此尽管存在这一细微的局限性所取得的性能对于广泛的实际应用来说通常是足够的。我们在图7中展示了一些可视化结果。此外经过GRPO后训练完整的Rex-Omni模型显著优于其仅SFT的变体观察到了明显的改进。这清楚地凸显了我们的强化学习策略的有效性。总结在这项工作中我们介绍了Rex-Omni一个拥有30亿参数的MLLM它系统地解决了基于MLLM的目标检测所面临的挑战。通过使用特殊标记进行高效的坐标标记化、通过定制引擎进行大规模数据生成以及新颖的SFTGRPO两阶段训练流程我们弥合了精确定位与深度语言理解之间的差距。我们的大量实验证明Rex-Omni在广泛的视觉感知任务中实现了最先进或极具竞争力的零样本性能。关键的是我们的分析验证了虽然SFT提供了坚实的基础但基于GRPO的后训练对于纠正SFT引发的行为缺陷如重复和过大框预测至关重要这是构建鲁棒的基于MLLM的检测器的一项关键贡献。尽管性能强劲但诸如推理速度等限制仍然存在。我们相信未来在模型加速和高级奖励引导采样方面的工作将是关键的后续步骤。总之Rex-Omni代表着向前迈出的重要一步证明了MLLM的行为和几何限制可以被系统地克服从而为下一代多功能、语言感知的感知系统铺平道路。本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

更多文章

前端开发 2026/4/29 7:46:22

现在用户都先问 AI 再做决策，不做 GEO 真的会错过大部分客户

很多做企业的朋友找我吐槽，说现在投广告越来越贵，客户刷到就划走，就算点进来也带着防备心，对比来对比去最后还是没成交。其实不是你的产品不行，是用户找答案的方式彻底变了，现在大家遇到问题第一反应都是问…

2026年真正好用的AI论文降重与改写工具，核心看降重效果、去AI味、格式保留、学术适配四大指标。综合实测，千笔AI、ThouPen、豆包、DeepSeek、Grammarly 是当前最值得推荐的梯队，覆盖从免费到付费、从中文到英文、从文科到理工的全场景需求。 …

张开发

前端开发 2026/4/24 15:54:26

FUTURE POLICE在AI编程助手场景的应用：从语音需求到代码生成

FUTURE POLICE在AI编程助手场景的应用：从语音需求到代码生成不知道你有没有过这样的经历？脑子里突然冒出一个绝妙的程序功能点子，或者想快速写个脚本解决手头的小麻烦，但打开编辑器，面对空白的屏幕，却要花…

张开发

CVPR‘26 开源| Rex-Omni检测万物：目标检测新范式

最新文章

SAP S/4年结卡壳？手把手教你用FAGLGVTR和AR03揪出固定资产里的‘坏账’

PyTorch训练中遇到Double和Float类型不匹配？别慌，这3种方法帮你快速定位和修复

2026年怎么集成OpenClaw/Hermes？腾讯云搭建及token Plan配置全流程

Faster-Whisper-GUI：让音频视频转文字变得前所未有的简单

用Python和VTK搞定医学图像MPR四视图：从DICOM数据到交互式切片的完整流程

终极指南：如何使用Hallo开源项目实现AI肖像动画生成

推荐文章

跨国团队必备：3步将飞书国际版文档转换为Markdown

Python测试中如何控制顺序_使用pytest-ordering自定义执行流

Python 协程池任务分发与错误处理

TestDisk PhotoRec数据恢复完整指南：5步高效找回丢失分区与文件

Moonlight-Switch技术方案：在Switch上实现专业级PC游戏串流

AAEON无风扇触控面板电脑在工业自动化中的应用

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

现在用户都先问 AI 再做决策，不做 GEO 真的会错过大部分客户

别再手动打Jar包了！用Docker一键搞定FlinkCDC到Paimon的依赖环境（附完整Dockerfile）

不止于复现：拆解Mfuzz聚类结果，教你从时间序列图中挖掘生物学故事

避坑指南：在树莓派Pico上为ILI9341屏移植LVGL 8.x的完整流程（附C语言工程）

量子计算三大路线：超导、离子阱、光量子谁主沉浮？

如何快速验证文件完整性：HashCheck Windows文件校验终极指南

抖音视频批量下载完全指南：从零基础到高效管理

数据开发平台如何落地实操？数据开发平台核心价值是什么？

SpringDataRedis Stream监听框架在Redis重启后的自动恢复机制优化

用Python实现双向LSTM：从公式到代码的完整指南（附Keras示例）

一文讲透｜降AI率工具深度测评与推荐

FUTURE POLICE在AI编程助手场景的应用：从语音需求到代码生成