多模态模型文章列表第1页-至顶网频道

多模态模型关键字列表

多模态模型

开源

Mini-Omni

实时语音交互

2024-09-03

第一个开源的具有实时对话能力的多模态模型：Mini-Omni

Mini-Omni是清华大学启元实验室开源的多模态模型，具备实时语音到语音的对话能力，无需额外的ASR或TTS模型。它能够边思考边说话，支持流式音频输出，并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。

AI公司

多模态模型

数据转换

Grok-1.5 Vision

2024-04-16

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

马斯克旗下AI公司x.ai推出Grok-1.5 Vision，具备视觉功能，能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品，展示了强大的理解、数据转换和检索能力，如将图片翻译成Python代码。即将向早期测试者和现有用户推出。

开源

DeepSeekVL

多模态模型

训练策略

2024-03-12

DeepSeek-VL：深度求索的多模态大模型

DeepSeekVL是一款开源多模态模型，通过对训练数据、模型架构和训练策略的联合拓展，构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。

白皮书

数字化转型方略

多模态模型

开源

Mini-Omni

实时语音交互

第一个开源的具有实时对话能力的多模态模型：Mini-Omni

AI公司

多模态模型

数据转换

Grok-1.5 Vision

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

开源

DeepSeekVL

多模态模型

训练策略

DeepSeek-VL：深度求索的多模态大模型

智算“筑基”AI未来

AI时代存储之变

ISV打卡AI新时代引领智能应用新潮流

AI+虚拟数字人，正在何处落地开花？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

智算“筑基”AI未来

AI时代 存储之变

ISV打卡AI新时代 引领智能应用新潮流

AI+虚拟数字人，正在何处落地开花？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

AI时代存储之变

ISV打卡AI新时代引领智能应用新潮流