语音合成文章列表第1页-至顶网频道

2025-03-27

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

Groq 与 PlayAI 宣布合作，通过 Groq 的高速推理平台推出先进的文本转语音模型 Dialog。这一合作结合了 PlayAI 在语音 AI 方面的专业知识和 Groq 的专业处理基础设施，创造出了据称是目前最自然、响应最快的文本转语音系统之一。该系统不仅支持英语和阿拉伯语，还采用了创新的"自适应语音上下文器"技术，能够实现更自然的对话流。

Google 在 Vertex AI 平台上添加其高清语音模型 Chirp 3

Google 宣布将其高清语音接口 Chirp 3 添加到 Vertex AI 开发平台。Chirp 3 支持 31 种语言的 8 种新声音,可用于构建语音助手、创建有声读物等。Google 强调 AI 发展是一场马拉松,短期内不会成为解决一切问题的灵丹妙药,但未来十年将带来重大变革。

创造出病毒级虚拟助手 Maya 的初创公司 Sesame 发布基础 AI 模型

AI 公司 Sesame 开源了支持其逼真语音助手 Maya 的基础模型。这个名为 CSM-1B 的 10 亿参数模型采用 Apache 2.0 许可证，可用于商业用途。该模型能从文本和音频输入生成"RVQ 音频编码"，使用了 Meta 的 Llama 模型作为主干。Sesame 提醒开发者谨慎使用，避免未经同意复制他人声音或制作虚假内容。

消费者报告指出 AI 语音克隆安全措施漏洞百出

消费者报告研究发现,六家提供人工智能语音克隆软件的公司中,有四家未能提供有效的防滥用措施。这项技术虽有合法用途,但也容易被滥用于欺诈等非法行为。报告呼吁企业加强安全保障,并建议加强监管以保护消费者权益。

令人惊叹又不安的超逼真 AI 语音演示

一段令人惊叹又让人不安的AI语音演示在网上引发热议。2013年，斯派克·琼斯的电影《她》描绘了一个人们与AI语音助手建立情感联系的未来。近12年后，AI初创公司Sesame发布的新对话语音模型使这一虚构的设想更接近现实，许多用户对此感到既着迷又不安。

Podcastle 推出支持超过 450 种 AI 语音的文本转语音模型

Podcastle是一款播客录制和编辑平台，现已推出名为Asyncflow v1.0的AI文本转语音模型，并为开发者提供API接口，方便其在应用中直接集成该模型。新模型支持超过450种AI语音，能够为文本进行朗读。该公司表示，其技术和模型的训练及推理成本较低，使其在竞争中具备优势。Podcastle的创始人Arto Yeritsyan表示，尽管开发成本高昂，但得益于最近的大型语言模型进展，Podcastle终于能够在不需要大量数据的情况下构建高质量的语音模型。