本周工作总结:

搜索与调研开源ASR引擎，最终选取Paraformer-Online、Paraformer-Large-VAD-PUNC、 SenseVoiceSmall、Fun-ASR-Nano-2512、Qwen3-ASR-1.7B、MOSS-Audio-4B-Instruct、 MOSS-Audio-8B-Thinking 七个模型进行普通话、英语、粤语测试，其中Qwen3-ASR-1.7B的ASR效果最好，Fun-ASR-Nano-2512、MOSS-Audio-8B-Thinking也有不错的转写效果。Qwen3-ASR-1.7B、MOSS-Audio-4B-Instruct、 MOSS-Audio-8B-Thinking的官方说明中提及是需要GPU驱动，在纯CPU环境测试中，三者都需要不同程度的额外时间完成测试。
打通ASR->LLM->TTS的通话助手，其中ASR选取了Qwen3-ASR-1.7B、tencent等模型进行测试，由于是流式输出环境，Qwen3-ASR-1.7B的输出表现不及测试优秀，需要较长时间进行转写，并且出现一定程度的漏字情况，而其他开源本地模型的效果更为糟糕。
TTS采用的是开源模型MOSS-TTS-Nano，转语音效果优秀，但转语音时间需要约一分钟，在实际情况中几乎不可接受。

问题与洞察:

GPU驱动的ASR引擎在CPU上也能跑，但在实际测试中，单个音频的平均转写时间达到十四分钟。实际使用场景需要在有GPU驱动情况下再次测试
目前ASR->LLM->TTS的主要时间消耗在TTS回复转语音过程，该过程取决于LLM回答长度，因此需要大幅度的限制大模型回答长度，而限制回答长度对模型的回答质量带来很大程度影响。而即使是在限制回答长度后，对于约100字的中文内容，TTS仍需要约五十秒完成语音生成。直接导致用户说话后约一分钟后才能听到回复。