Google DeepMind CEO Demis Hassabis透露,Google计划将Gemini AI模型与Veo视频生成模型结合,以增强AI对物理世界的理解。这一举措旨在创建多模态的"通用数字助手",能在现实世界中为用户提供帮助。AI行业正逐步发展towards全能模型,能够理解和生成多种媒体形式。
Meta周六推出了最新一代生成式AI模型家族Llama 4,包括Scout和Maverick两款开放权重的多模态模型。Scout是较小的170亿参数模型,Maverick则是中型模型,拥有170亿参数和128个专家子网络。测试显示Maverick在文本生成方面超越了ChatGPT-4o。更多Llama 4系列模型将在本月晚些时候公布。
Cohere的非营利研究实验室本周发布了一款多模态“开放”AI模型Aya Vision,该实验室声称其为同类最佳。Aya Vision能够执行图像描述、回答照片相关问题、翻译文本以及生成23种主要语言的摘要等任务。Cohere还通过WhatsApp免费提供Aya Vision,称这是“使技术突破对全球研究人员可及的重要一步”。
Google 云计算部门预测多模态 AI 将成为 2025 年五大 AI 趋势之一。该公司正通过 BigQuery 数据仓库整合文本、图像、视频等非结构化数据,结合生成式 AI 处理,以抢占多模态 AI 市场先机。Google 认为,这种技术可以从以前无法使用的数据中挖掘洞察,为企业带来前所未有的个性化和可扩展性。
随着生成式AI的快速普及,企业已开始广泛应用并获得投资回报。预计到2025年,AI将在企业中大规模采用,推动效率和生产力提升。小型语言模型、边缘计算、AI推理能力、proven use cases的大规模应用、敏捷开发的演进、法规监管加强、AI的无处不在、AI代理的兴起、多模态AI等将成为主要趋势,彻底改变企业运营方式和软件开发模式。