最新文章
OpenAI推出GPT Image 1.5模型加速图像生成竞争

OpenAI推出GPT Image 1.5模型加速图像生成竞争

OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。

AI Institute杀手锏:用单元测试训练出超强文档识别神器,准确率飙升至82.4%

AI Institute杀手锏:用单元测试训练出超强文档识别神器,准确率飙升至82.4%

艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。

Zoom推出AI Companion 3.0智能体工作流程

Zoom推出AI Companion 3.0智能体工作流程

Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。

苹果公司发布Pico-Banana-400K:40万图片训练数据让AI修图像人类一样聪明

苹果公司发布Pico-Banana-400K:40万图片训练数据让AI修图像人类一样聪明

苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。

ChatGPT成为互联网最受阻止的爬虫机器人

ChatGPT成为互联网最受阻止的爬虫机器人

根据Cloudflare 2025年度报告,ChatGPT的爬虫GPTBot是互联网上被阻止最多的机器人,而其最大竞争对手谷歌则是最被允许的爬虫。报告显示,非人类机器人现占互联网流量的56.5%,其中AI服务爬虫增长最快。不同网站对爬虫态度各异,一些希望获得流量,另一些则认为机器人在未给予充分补偿的情况下获取价值。在爬取与推荐比率方面,Anthropic的表现最差,达到10万比1。

香港大学团队破解电脑操作难题:让AI通过看视频学会自己使用电脑

香港大学团队破解电脑操作难题:让AI通过看视频学会自己使用电脑

香港大学团队开发了VideoAgentTrek系统,通过自动分析YouTube教程视频训练AI学会电脑操作。该系统使用Video2Action模块从39000个视频中提取152万操作步骤,让AI任务成功率从9.3%提升至15.8%,为AI助手实用化开辟新路径。

英伟达推出开源权重模型填补美国AI市场空白

英伟达推出开源权重模型填补美国AI市场空白

英伟达发布三款全新开源权重模型Nemotron,包括Nano、Super和Ultra三个版本,参数量分别为300亿、1000亿和5000亿。这些模型采用混合潜在专家架构,结合Mamba-2和Transformer技术,支持百万token上下文窗口,可在企业硬件上高效运行。英伟达还将开源训练数据和强化学习环境,帮助企业定制化模型。

微软和布朗大学最新发现:让AI助手拥有18000多种技能的革命性突破

微软和布朗大学最新发现:让AI助手拥有18000多种技能的革命性突破

微软与布朗大学联合研究发现,通过为AI助手配备18000多种专业工具,可以显著提升其在企业环境中的工作效率。研究团队创建了TheMCPCompany测试环境,使用模型上下文协议(MCP)让AI助手能够直接调用专业工具而非依赖浏览器。实验显示,使用专业工具的AI助手性能提升13.79分,成本降低54%,但在复杂Azure任务中仍面临挑战,揭示了未来智能助手发展的重要方向。

Meta推出SAM Audio模型:AI音频分离新突破

Meta推出SAM Audio模型:AI音频分离新突破

Meta发布新款SAM Audio模型,能够通过文本、时间段标记和视频视觉选择等多种提示方式分离和编辑音频。该模型可从歌曲中提取特定乐器声音,或从录音中去除背景噪音,大幅减少传统音频编辑的手工操作。Meta声称这是首个统一的多模态音频分离模型,已在Segment Anything平台上线并开放下载。

上海交大团队造出手机AI助手ColorAgent:不只是工具,更像贴心伙伴

上海交大团队造出手机AI助手ColorAgent:不只是工具,更像贴心伙伴

上海交通大学与OPPO研究院联合开发的ColorAgent系统,实现了从被动工具到主动伙伴的突破,通过创新的多智能体架构和个性化交互机制,在手机操作任务中达到77.2%的成功率,创造了该领域新纪录,为未来智能手机助手的发展指明了方向。

英伟达推动数据中心增长,以太网交换机销售创纪录

英伟达推动数据中心增长,以太网交换机销售创纪录

Dell'Oro集团研究显示,第三季度数据中心存储、服务器和以太网交换机显著增长,推动组件销售同比激增40%。以太网交换机表现突出,收入达到创纪录的80亿美元。在AI热潮推动下,超大规模厂商持续引领数据中心基础设施增长。英伟达、三星和SK海力士在GPU、CPU等半导体领域获得丰厚收益。Dell'Oro预测未来五年服务器和存储系统组件收入将以26%的复合年增长率增长。

上海交通大学发布OmniNWM:让AI像侦探一样“看透“自动驾驶世界的神奇系统

上海交通大学发布OmniNWM:让AI像侦探一样“看透“自动驾驶世界的神奇系统

OmniNWM是由上海交通大学等机构开发的创新自动驾驶世界模型,首次实现状态、动作、奖励三维统一。系统能同时生成全景RGB、语义、深度和3D占用视频,通过规范化射线图实现精确控制,并基于3D占用直接评判驾驶安全性。该技术在视频生成质量、控制精度和长期稳定性方面均达到领先水平,支持零样本跨数据集泛化,为自动驾驶技术商业化提供了重要突破。