Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升,旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理,并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token,适合各种硬件使用,且开源可供下载。
微软推出了新型AI模型Magma,旨在提升机器人的视觉、理解和行动能力。Magma能同时处理多种类型的数据,是朝着"代理AI"迈出的重要一步。该模型结合了视觉和语言处理技术,经过多模态训练,可以执行操控机器人和导航用户界面等任务,为AI自动化日常生活开辟了新的可能性。
前OpenAI首席技术官Mira Murati今天推出了一家新的人工智能初创公司——思维机器实验室,专注于开发多模态模型。该公司在竞争激烈的AI市场中崭露头角,Murati曾在四个月前与投资者洽谈筹集超过1亿美元的资金。思维机器实验室的初始团队包括前OpenAI研究高管Barret Zoph,Murati担任首席执行官,Zoph担任首席技术官。该实验室计划训练能够处理文本和多媒体文件的模型,并将基础设施质量作为首要任务,致力于提高研究生产力。
Mini-Omni是清华大学启元实验室开源的多模态模型,具备实时语音到语音的对话能力,无需额外的ASR或TTS模型。它能够边思考边说话,支持流式音频输出,并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。
马斯克旗下AI公司x.ai推出Grok-1.5 Vision,具备视觉功能,能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品,展示了强大的理解、数据转换和检索能力,如将图片翻译成Python代码。即将向早期测试者和现有用户推出。
DeepSeekVL是一款开源多模态模型,通过对训练数据、模型架构和训练策略的联合拓展,构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。