语音识别文章列表第1页-至顶网频道

2025-04-11

Amazon Nova Sonic AI 不只是听懂你说什么，还能理解你的语气

亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型，它不仅能理解语音内容，还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能，能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应，理解对话中的停顿，并能适当处理打断等情况，从而提供更智能、更人性化的语音交互体验。

企业专用 AI 语音模型新秀：aiOla 推出 Jargonic，号称在企业术语识别方面优于竞品

aiOla 推出了一款名为 Jargonic 的新型自动语音识别模型,专为企业使用而设计。这个模型能够处理专业术语、背景噪音和各种口音,无需大量再训练或微调。Jargonic 采用独特的关键词识别系统,可以零样本适应企业特定词汇。在多项基准测试中,Jargonic 在准确性和专业术语识别方面都优于主要竞争对手。这款模型现已通过 API 向企业客户开放使用。

Observe 推出 VoiceAI 智能助手，通过拟人化语音实现客服中心自动化，避免打断对话

Observe.AI 正式推出 VoiceAI 智能语音助手，旨在自动化处理呼叫中心的日常客户交互。该解决方案集成了多项 AI 技术，包括语音识别、文本转语音和专有 AI 模型，可无缝对接企业现有系统。通过提供拟人化的语音服务，既能提升客户体验，又能大幅降低运营成本，帮助企业打造智能化客服中心。

OpenAI 新推出的语音 AI 模型 gpt-4o-transcribe 让你几秒钟内为现有文本应用添加语音功能

OpenAI 发布三款全新专有语音模型，包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发，提供更准确的转录和语音合成能力，支持 100 多种语言，可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色，错误率仅为 2.46%，并支持语音定制和情感表达。

Anthropic 据报道正在为 Claude 准备语音模式

据报道，人工智能初创公司 Anthropic 正在为其 AI 聊天机器人 Claude 开发语音功能。公司首席产品官表示，计划推出允许用户与 AI 模型对话的体验。Anthropic 已进行内部原型开发，并与包括亚马逊在内的多个合作伙伴讨论，以加速语音功能的推出。这将使 Claude 的交互方式更加自然，为用户提供新的使用模式。

ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司，主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe，迈出了另一个技术方向。该初创公司估值为33亿美元，已帮助许多其他公司提供语音转文本服务，利用其庞大的声音库。然而，该公司现在希望进入语音检测领域，与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。

人工智能

语音识别

欺诈防护

2025-01-14

美国银行 FNBO 使用 Pindrop 应对语音诈骗和深度伪造

美国第一国民银行 (FNBO) 与语音安全专家 Pindrop 合作,采用创新技术来识别和验证客户身份。通过结合云端欺诈检测和身份认证系统,FNBO 实现了无摩擦的客户验证,提高了安全性和用户体验。该银行还在测试新的深度伪造检测功能,以应对日益严重的 AI 语音欺诈威胁。这种合作体现了银行业应对网络犯罪挑战的新趋势。