语言对齐文章列表第1页-至顶网频道 - 至顶网

/

语言对齐关键字列表

北航联合美团提出LLaVA-ST！细粒度时空多模态理解的MLLM！

时空多模态

文本坐标

语言对齐

2025-01-17

北航联合美团提出LLaVA-ST！细粒度时空多模态理解的MLLM！

我们将需要基于语言输入处理视觉坐标的任务称为细粒度多模态理解。对于这些任务，当前的MLLMs主要集中在两个方面：有的模型擅长图像中物体的空间定位，但在细粒度时间理解任务上表现不佳；有的模型专门擅长像TVG这样的细粒度时间理解，但无法确定物体的边界框。现有的MLLMs无法统一实现空间、时间和交错的细粒度多模态理解任务。

白皮书

更多

数字化转型方略

更多

CES 2025：沉浸AI

大模型落地，你还缺怎样的“工具箱”？

2024 AI创新者大会

智算“筑基”AI未来

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

友情链接

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号

举报电话：010-62641205-5060　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn

网上有害信息举报专区：https://www.12377.cn

安全联盟认证