OpenAI还新增了自定义指令、语音记忆存储、5种新声音、语速以及新增了50多种语音(最初是40种),同时支持中文模式。
在行业竞争优势方面, 37% 的早期生成式AI使用者认为,自己在市场和竞争对手中遥遥领先,而计划者中这一比例仅为 11%。这表明早期使用者通过积极应用生成式 AI,已经取得了一定的竞争优势,并且相信这种优势将继续扩大。
目前,多数大模型的性能受限于其预训练阶段所获取的数据集,以及推理过程中的算力资源。研究人员发现,可以通过更多的推理时间、自适应(就是草莓的特殊延迟推理)来提升模型的性能,这种技术称为——测试时计算(Test-time computation)。
OpenAI能拿到的资金上限是115亿美元。本次投资者包括微软、苹果、英伟达、Thrive Capital等全球知名企业,其估值比上一轮融资提升了1倍左右。
Siri已经集成了OpenAI的ChatGPT(GPT-4o)功能,使其理解、生成、执行能力更强,例如,你在计划一次旅行时,想要了解目的地的景点推荐、美食特色、文化等,Siri 可以通过 ChatGPT 获取丰富的信息更好的帮助你。
为了解决训练数据短缺和质量差的难题,微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Instruct。
商汤科技等机构联合开源了百亿级图文交错数据集OmniCorpus,规模是现有数据集的15倍,包含86亿张图像和16,960亿个文本标记。OmniCorpus数据集在多语言、多类型数据抓取上进行了优化,提高了内容提取的质量和完整性。通过人工反馈和自动过滤规则,确保了数据集的高质量。在VQA和Image Captioning等测试中,基于OmniCorpus预训练的模型表现出色,对训练多模态大模型有重要帮助。
OpenAI正在进行数十亿美元融资,估值超过1000亿美元,由Thrive Capital领投,微软参与。资金将支持AI算力和日常运营。自发布ChatGPT以来,OpenAI估值飙升,但财务状况紧张,因为开发多个大模型如GPT-4和Sora等,导致巨大的算力和资源消耗。面对激烈的市场竞争,OpenAI急需资金支持以维持运营和开发新产品。
文生图片开源领域就杀出了一匹大黑马—FLUX.1。性能大幅度超过了DALL·E-3、Midjourney V6闭源模型,开源SD3系列的Ultra、Medium、Turbo和SDXL被全线秒杀。
aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法,允许模型在每个推理步骤中预测多个token,同时不会损失性能和识别准确率。
这个模型一般的GPU肯定是跑不起来,如此大的参数在部署方面个人开发者也负担不起(如果你有一些H100也没问题),估计是给企业、政务公共部门用的。对于Meta即将发布的模型,就有网友泼冷水。相比OpenAI最新的GPT-4o mini版本,Llama 3.1-70B推理成本提升了3倍,但编码的性能却要差很多。
Numina一路披荆斩棘、过关斩将,在50道超难的数学竞赛题中,其AI模型回答对了29道比第二名多出7道顺利拿下第一名。
中国凭借庞大的“原生数字人口”以及健康、积极的创新技术生态,在生成式AI产品场景化落地和应用方面领先美国、英国、日本等发达国家。
球申请生成式AI专利前10位分别是:腾讯、平安保险、百度、中国科学院、IBM、阿里巴巴、三星电子、Alphabet(谷歌母公司)、字节跳动和微软。(排名按照专利数量)
Gen-3 Alpha是Runway在本月17日最新推出的产品,与上一代相比,光影、质量、构图、文本语义还原、物理模拟、动作一致性/连贯性等方面实现大幅度提升,剑指OpenAI的Sora。
全球著名开源平台huggingface的联合创始人宣布,阿里开源的Qwen2-72B指令微调版本成为开源模型排行榜第一名。使用300块H100对全球100多个主流开源大模型进行评估,结果显示,Qwen-2 72B力压其他模型,中国在全球开源大模型领域处于领导地位。StabilityAI的研究总监Tanishq认为,中国在开源大模型领域非常有竞争力,期待阿里发布更多高性能的开源大模型。
与以往模型不同的是,CriticGPT是一款面向开发人员的产品,可以增强RLHF(人类反馈强化学习)的效率培育出质量更好的训练数据。
OpenAI在官网宣布,美国陆军退役四星上将、前美国网络司令部司令、前国家安全局局长、前中央安全局局长,Paul M. Nakasone(中曾根)加入董事会和安全委员会。
41%的人正通过生成式AI获取旅行灵感或行程规划,这一比2023年8月的34%提升了7%,并且82%使用过的生成式AI用户会再次通过它来进行旅游方面的应用。