实时语音交互 关键字列表
第一个开源的具有实时对话能力的多模态模型:Mini-Omni

第一个开源的具有实时对话能力的多模态模型:Mini-Omni

Mini-Omni是清华大学启元实验室开源的多模态模型,具备实时语音到语音的对话能力,无需额外的ASR或TTS模型。它能够边思考边说话,支持流式音频输出,并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。