多模态模型文章列表第1页-至顶网频道

多模态模型关键字列表

Meta发布Llama 4，新一代旗舰AI模型

Meta发布了Llama家族的新一代AI模型Llama 4，包括Scout、Maverick和Behemoth三个模型。这些模型在大量未标记的文本、图像和视频数据上进行训练，具备广泛的视觉理解能力。Llama 4采用混合专家架构，提高了计算效率。Meta表示，这标志着Llama生态系统新时代的开始，将为用户带来更强大的AI能力。

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升，旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理，并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token，适合各种硬件使用，且开源可供下载。

Microsoft 的 Magma AI 可以操控和控制机器人

微软推出了新型AI模型Magma，旨在提升机器人的视觉、理解和行动能力。Magma能同时处理多种类型的数据，是朝着"代理AI"迈出的重要一步。该模型结合了视觉和语言处理技术，经过多模态训练，可以执行操控机器人和导航用户界面等任务，为AI自动化日常生活开辟了新的可能性。

Mira Murati 离开 OpenAI 后创立 Thinking Machines Lab

前OpenAI首席技术官Mira Murati今天推出了一家新的人工智能初创公司——思维机器实验室，专注于开发多模态模型。该公司在竞争激烈的AI市场中崭露头角，Murati曾在四个月前与投资者洽谈筹集超过1亿美元的资金。思维机器实验室的初始团队包括前OpenAI研究高管Barret Zoph，Murati担任首席执行官，Zoph担任首席技术官。该实验室计划训练能够处理文本和多媒体文件的模型，并将基础设施质量作为首要任务，致力于提高研究生产力。