多模态模型 关键字列表
Google 的 Gemma 3:一款支持 128K 上下文窗口的开源单 GPU AI 模型

Google 的 Gemma 3:一款支持 128K 上下文窗口的开源单 GPU AI 模型

Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升,旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理,并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token,适合各种硬件使用,且开源可供下载。

Microsoft 的 Magma AI 可以操控和控制机器人

Microsoft 的 Magma AI 可以操控和控制机器人

微软推出了新型AI模型Magma,旨在提升机器人的视觉、理解和行动能力。Magma能同时处理多种类型的数据,是朝着"代理AI"迈出的重要一步。该模型结合了视觉和语言处理技术,经过多模态训练,可以执行操控机器人和导航用户界面等任务,为AI自动化日常生活开辟了新的可能性。

Mira Murati 离开 OpenAI 后创立 Thinking Machines Lab

Mira Murati 离开 OpenAI 后创立 Thinking Machines Lab

前OpenAI首席技术官Mira Murati今天推出了一家新的人工智能初创公司——思维机器实验室,专注于开发多模态模型。该公司在竞争激烈的AI市场中崭露头角,Murati曾在四个月前与投资者洽谈筹集超过1亿美元的资金。思维机器实验室的初始团队包括前OpenAI研究高管Barret Zoph,Murati担任首席执行官,Zoph担任首席技术官。该实验室计划训练能够处理文本和多媒体文件的模型,并将基础设施质量作为首要任务,致力于提高研究生产力。

第一个开源的具有实时对话能力的多模态模型:Mini-Omni

第一个开源的具有实时对话能力的多模态模型:Mini-Omni

Mini-Omni是清华大学启元实验室开源的多模态模型,具备实时语音到语音的对话能力,无需额外的ASR或TTS模型。它能够边思考边说话,支持流式音频输出,并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。

马斯克展示Grok-1.5 Vision:多模态,能理解真实世界

马斯克展示Grok-1.5 Vision:多模态,能理解真实世界

马斯克旗下AI公司x.ai推出Grok-1.5 Vision,具备视觉功能,能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品,展示了强大的理解、数据转换和检索能力,如将图片翻译成Python代码。即将向早期测试者和现有用户推出。

DeepSeek-VL:深度求索的多模态大模型

DeepSeek-VL:深度求索的多模态大模型

DeepSeekVL是一款开源多模态模型,通过对训练数据、模型架构和训练策略的联合拓展,构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。