多模态模型 关键字列表
第一个开源的具有实时对话能力的多模态模型:Mini-Omni

第一个开源的具有实时对话能力的多模态模型:Mini-Omni

Mini-Omni是清华大学启元实验室开源的多模态模型,具备实时语音到语音的对话能力,无需额外的ASR或TTS模型。它能够边思考边说话,支持流式音频输出,并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。

马斯克展示Grok-1.5 Vision:多模态,能理解真实世界

马斯克展示Grok-1.5 Vision:多模态,能理解真实世界

马斯克旗下AI公司x.ai推出Grok-1.5 Vision,具备视觉功能,能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品,展示了强大的理解、数据转换和检索能力,如将图片翻译成Python代码。即将向早期测试者和现有用户推出。

DeepSeek-VL:深度求索的多模态大模型

DeepSeek-VL:深度求索的多模态大模型

DeepSeekVL是一款开源多模态模型,通过对训练数据、模型架构和训练策略的联合拓展,构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。