视觉特征 关键字列表
上海AI Lab提出TimeSuite:解锁MLLM长视频理解的潜力!

上海AI Lab提出TimeSuite:解锁MLLM长视频理解的潜力!

多模态大型语言模型(MLLMs)通过遵循一般的人类指令来解释视觉内容,已经展示了令人印象深刻的视频理解性能。然而,这些MLLMs在长视频理解方面仍然存在困难,因为长视频序列可能包含各种动态动作和复杂的时间关系,这使得MLLMs难以有效定位与问题相关的关键片段。