时空维度 关键字列表
NVIDIA提出多模态大模型Omni-RGPT!Token Mark实现区域级理解!

NVIDIA提出多模态大模型Omni-RGPT!Token Mark实现区域级理解!

为了实现图像中的交互式区域特定理解,最近的方法采用了各种策略来表示目标区域:在文本标记中编码文本框坐标,利用视觉 RoI 特征,或应用视觉标记。将这些能力扩展到视频领域,一些方法将初始帧的边界框坐标作为文本形式用于区域级视频理解任务。然而,一种能够有效解决图像和视频中区域特定任务的通用方法仍然是一个开放的挑战。