Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。
OpenAI 发布 ChatGPT 4.5 预览版,承诺对话更自然、情感智能更强、知识面更广。新模型能更好理解语境和细微差别,创造力和协作能力提升,幻觉现象减少。这一升级体现了 AI 向着匹敌甚至超越人类能力的目标迈进,为未来更强大的 GPT-5 奠定基础。
Figure 公司宣布将于 2025 年底开始在家庭环境中进行 Figure 02 人形机器人的"Alpha 测试"。这一加速计划得益于公司自主研发的 Helix 视觉-语言-行动模型。尽管家庭环境复杂多变,但 Figure 仍决定优先发展家用机器人,以应对人口老龄化等社会问题。
Nvidia在人工智能(AI)数据中心的主导地位持续巩固,最新季度财报显示收入增长16%,与去年同期相比增长93%。该公司的数据中心业务季度收入为356亿美元,全年收入为1150亿美元,同比增长142%。Nvidia首席执行官黄仁勋表示,推理AI将推动对Blackwell的需求,认为新AI模型将进一步提升计算需求。尽管云服务提供商(CSP)正在开发定制芯片以优化AI工作负载,但他认为Nvidia的GPU仍将长期受益于企业客户的增长。
TikTok 计划关闭其创作者市场,转而推出更全面的 TikTok One 平台。新平台将继续连接品牌与创作者,并提供 AI 驱动的创意工具,如 Symphony 创意工作室和 AI 助手。这一转变旨在为广告商和创作者提供更强大的功能,包括趋势分析、视频生成和脚本创作等,以适应 TikTok 的原生风格。
腾讯推出新AI模型"混元Turbo S",定位为"快思考模型",旨在与DeepSeek-R1等"慢思考模型"竞争。该模型通过提高输出速度和减少首字延迟,实现近乎"即时回复"。混元Turbo S融合了直觉式短思考链和理性推理长思考链,在数学、推理和知识等方面表现可比肩主流AI模型。腾讯采用混合Mamba-Transformer架构,提高效率并降低成本,有望成为未来基础模型的核心。
OpenAI 今日推出最新最大的 AI 语言模型 GPT-4.5。该模型将首先向 ChatGPT Pro 用户提供研究预览。虽然 OpenAI 称其为"最具知识性的模型",但也警告 GPT-4.5 并非前沿模型,可能无法超越 o1 或 o3-mini 的表现。GPT-4.5 在写作、知识储备和个性方面有所提升,但不会引入足够的新功能被视为前沿模型。
安全研究人员警告称,即使数据在互联网上暴露的时间很短,仍可能在像 Microsoft Copilot 这样的在线生成 AI 聊天机器人中长期存在。
Hugging Face 推出开源 Python 库 FastRTC,旨在简化实时音视频 AI 应用的开发过程。该库可自动处理复杂的实时通信功能,使开发者能够用少量代码快速构建语音和视频 AI 功能。这一工具有望加速语音优先和视频增强型 AI 体验的普及,为用户带来更自然的交互界面。
智能AI是去年生成式AI领域的重大突破技术,今年企业将大规模部署这些系统。但整合智能AI与现有系统存在诸多挑战,包括基础设施现代化、数据集成、安全合规等。IT领导者需要谨慎考虑这些问题,以确保成功部署智能AI系统。
ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司,主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe,迈出了另一个技术方向。该初创公司估值为33亿美元,已帮助许多其他公司提供语音转文本服务,利用其庞大的声音库。然而,该公司现在希望进入语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。
OpenAI 推出代号"Orion"的 GPT-4.5 模型,这是公司迄今最大规模的 AI 模型。GPT-4.5 在计算能力和训练数据方面均超越以往版本,但 OpenAI 并不认为它是前沿模型。该模型将逐步向付费用户开放,但运营成本高昂。尽管在某些基准测试中表现出色,但 GPT-4.5 在部分任务上仍落后于其他 AI 推理模型,凸显了传统预训练方法的局限性。
亚马逊正在重塑其旗舰语音助手 Alexa,通过整合 AI 代理、模型混合和浏览器操作能力,打造更智能的 Alexa+。新版本不仅可以主动提供个性化信息,还能理解复杂指令并完成多步骤任务。亚马逊希望通过这种创新方式,让 Alexa 成为更强大、更智能的家庭语音助手。
亚马逊在周三分享了一个令人印象深刻的“代理”未来愿景——在这个未来中,改进后的 Alexa+ 将处理无数日常任务,从预订餐厅到寻找家电维修工。如果亚马逊能够实现这一目标,它可能会成为首个推出全面、以消费者为中心的代理工具的公司。该公司希望将更自然、更具表现力的 Alexa(由生成性 AI 模型驱动)与能够以完全自主、智能的方式接入第一方和第三方应用、服务及平台的能力结合起来。
微软推出了新一代高效 AI 模型 Phi-4,可同时处理文本、图像和语音,且计算资源需求大幅降低。其中 Phi-4-Multimodal 仅有 56 亿参数,Phi-4-Mini 仅有 38 亿参数,性能却超越同等规模竞品,甚至在某些任务上媲美两倍大小的模型。这一突破性进展为开发者提供了先进的 AI 能力,有望推动边缘计算和普及 AI 应用。
阿里云开源了其视频基础模型系列,为企业和研究人员提供视频创作能力。这包括两个版本的四个模型,分别拥有140亿和13亿参数。这些模型可以从文本和图像输入生成高质量视频,支持中英文文本效果,并在视频生成模型基准测试中表现出色。此举旨在降低AI应用门槛,让更多企业能够创建高质量视觉内容。
亚马逊推出Alexa+订阅服务,大幅提升Alexa的对话和任务处理能力。它能理解日常用语,执行复杂指令,并整合多种第三方服务。Prime会员可免费使用,非会员每月需付20美元。这项服务旨在提升Alexa的盈利能力,但也引发了隐私和数据使用方面的担忧。
尽管风险投资市场依然紧张,但每个月仍有新的独角兽公司诞生。根据 Crunchbase 和 PitchBook 的数据,TechCrunch 跟踪了截至 1 月底新成立的风险投资支持的独角兽初创公司。这些公司包括医疗保健公司 Hippocratic AI 和卫星公司 Loft Orbital。此列表将在全年更新,敬请关注今年的强劲企业!