多模态大型语言模型(MLLMs)通过遵循一般的人类指令来解释视觉内容,已经展示了令人印象深刻的视频理解性能。然而,这些MLLMs在长视频理解方面仍然存在困难,因为长视频序列可能包含各种动态动作和复杂的时间关系,这使得MLLMs难以有效定位与问题相关的关键片段。
11月28日,在网易创新企业大会上,来自网易核心架构的通信与视频云服务商网易云信与浙江大学信电学院达成战略合作,成立浙江大学信电学院——网易云信联合创新与实践基地