OpenAI 发布三款全新专有语音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发,提供更准确的转录和语音合成能力,支持 100 多种语言,可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色,错误率仅为 2.46%,并支持语音定制和情感表达。
据报道,人工智能初创公司 Anthropic 正在为其 AI 聊天机器人 Claude 开发语音功能。公司首席产品官表示,计划推出允许用户与 AI 模型对话的体验。Anthropic 已进行内部原型开发,并与包括亚马逊在内的多个合作伙伴讨论,以加速语音功能的推出。这将使 Claude 的交互方式更加自然,为用户提供新的使用模式。
ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司,主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe,迈出了另一个技术方向。该初创公司估值为33亿美元,已帮助许多其他公司提供语音转文本服务,利用其庞大的声音库。然而,该公司现在希望进入语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。
美国第一国民银行 (FNBO) 与语音安全专家 Pindrop 合作,采用创新技术来识别和验证客户身份。通过结合云端欺诈检测和身份认证系统,FNBO 实现了无摩擦的客户验证,提高了安全性和用户体验。该银行还在测试新的深度伪造检测功能,以应对日益严重的 AI 语音欺诈威胁。这种合作体现了银行业应对网络犯罪挑战的新趋势。
在显示技术上,Orion采用了碳化硅镜片和先进的光波导技术,结合Micro LED投影仪,提供了70度的视场角,这在小型AR眼镜中是前所未有的,为用户提供了更为沉浸式的体验。
多模态AI系统,融合语音对话和音频分析功能,支持超过8种语言和方言,无需自动语音识别即可进行语音交互,提供音频信息分析和多语言支持。
国际顶级学术会议ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)正于美国华盛顿召开。会上,火山语音多篇论文被KDD 2022 Research track接收并发表,创新性地提出基于语音合成来有效攻击语音识别系统的新技术路径,用于高效并准确发现语音安全领域的新漏洞。