多模态大型语言模型(MLLMs)通过遵循一般的人类指令来解释视觉内容,已经展示了令人印象深刻的视频理解性能。然而,这些MLLMs在长视频理解方面仍然存在困难,因为长视频序列可能包含各种动态动作和复杂的时间关系,这使得MLLMs难以有效定位与问题相关的关键片段。