本周工作总结:
-
搜索与调研开源ASR引擎,最终选取Paraformer-Online、Paraformer-Large-VAD-PUNC、 SenseVoiceSmall、Fun-ASR-Nano-2512、Qwen3-ASR-1.7B、MOSS-Audio-4B-Instruct、 MOSS-Audio-8B-Thinking 七个模型进行普通话、英语、粤语测试,其中Qwen3-ASR-1.7B的ASR效果最好,Fun-ASR-Nano-2512、MOSS-Audio-8B-Thinking也有不错的转写效果。Qwen3-ASR-1.7B、MOSS-Audio-4B-Instruct、 MOSS-Audio-8B-Thinking的官方说明中提及是需要GPU驱动,在纯CPU环境测试中,三者都需要不同程度的额外时间完成测试。
-
打通ASR->LLM->TTS的通话助手,其中ASR选取了Qwen3-ASR-1.7B、tencent等模型进行测试,由于是流式输出环境,Qwen3-ASR-1.7B的输出表现不及测试优秀,需要较长时间进行转写,并且出现一定程度的漏字情况,而其他开源本地模型的效果更为糟糕。
-
TTS采用的是开源模型MOSS-TTS-Nano,转语音效果优秀,但转语音时间需要约一分钟,在实际情况中几乎不可接受。
问题与洞察:
-
GPU驱动的ASR引擎在CPU上也能跑,但在实际测试中,单个音频的平均转写时间达到十四分钟。实际使用场景需要在有GPU驱动情况下再次测试
-
目前ASR->LLM->TTS的主要时间消耗在TTS回复转语音过程,该过程取决于LLM回答长度,因此需要大幅度的限制大模型回答长度,而限制回答长度对模型的回答质量带来很大程度影响。而即使是在限制回答长度后,对于约100字的中文内容,TTS仍需要约五十秒完成语音生成。直接导致用户说话后约一分钟后才能听到回复。
下周重点工作:
-
尝试缩减TTS转语音时间,其中可能包括TTS模型预加载、流式生成语音并播放等途径