语音识别 关键字列表
OpenAI 新推出的语音 AI 模型 gpt-4o-transcribe 让你几秒钟内为现有文本应用添加语音功能

OpenAI 新推出的语音 AI 模型 gpt-4o-transcribe 让你几秒钟内为现有文本应用添加语音功能

OpenAI 发布三款全新专有语音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发,提供更准确的转录和语音合成能力,支持 100 多种语言,可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色,错误率仅为 2.46%,并支持语音定制和情感表达。

Anthropic 据报道正在为 Claude 准备语音模式

Anthropic 据报道正在为 Claude 准备语音模式

据报道,人工智能初创公司 Anthropic 正在为其 AI 聊天机器人 Claude 开发语音功能。公司首席产品官表示,计划推出允许用户与 AI 模型对话的体验。Anthropic 已进行内部原型开发,并与包括亚马逊在内的多个合作伙伴讨论,以加速语音功能的推出。这将使 Claude 的交互方式更加自然,为用户提供新的使用模式。

ElevenLabs 推出自研语音转文本模型

ElevenLabs 推出自研语音转文本模型

ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司,主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe,迈出了另一个技术方向。该初创公司估值为33亿美元,已帮助许多其他公司提供语音转文本服务,利用其庞大的声音库。然而,该公司现在希望进入语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。

美国银行 FNBO 使用 Pindrop 应对语音诈骗和深度伪造

美国银行 FNBO 使用 Pindrop 应对语音诈骗和深度伪造

美国第一国民银行 (FNBO) 与语音安全专家 Pindrop 合作,采用创新技术来识别和验证客户身份。通过结合云端欺诈检测和身份认证系统,FNBO 实现了无摩擦的客户验证,提高了安全性和用户体验。该银行还在测试新的深度伪造检测功能,以应对日益严重的 AI 语音欺诈威胁。这种合作体现了银行业应对网络犯罪挑战的新趋势。

Meta Connect 2024,Meta 推出 Orion AR 眼镜、Quest 3S VR头显、Ray-Ban智能眼镜

Meta Connect 2024,Meta 推出 Orion AR 眼镜、Quest 3S VR头显、Ray-Ban智能眼镜

在显示技术上,Orion采用了碳化硅镜片和先进的光波导技术,结合Micro LED投影仪,提供了70度的视场角,这在小型AR眼镜中是前所未有的,为用户提供了更为沉浸式的体验。

Qwen2-Audio:多模态AI系统,融合语音对话和音频分析功能

Qwen2-Audio:多模态AI系统,融合语音对话和音频分析功能

多模态AI系统,融合语音对话和音频分析功能,支持超过8种语言和方言,无需自动语音识别即可进行语音交互,提供音频信息分析和多语言支持。

顶会论文防语音欺诈新成果:KDD 2022火山语音提出“无中生有式”对抗语音攻击创新方案

顶会论文防语音欺诈新成果:KDD 2022火山语音提出“无中生有式”对抗语音攻击创新方案

国际顶级学术会议ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)正于美国华盛顿召开。会上,火山语音多篇论文被KDD 2022 Research track接收并发表,创新性地提出基于语音合成来有效攻击语音识别系统的新技术路径,用于高效并准确发现语音安全领域的新漏洞。