2026.5.15周报

本周工作总结:

  1. 搜索与调研开源ASR引擎,最终选取Paraformer-Online、Paraformer-Large-VAD-PUNC、 SenseVoiceSmall、Fun-ASR-Nano-2512、Qwen3-ASR-1.7B、MOSS-Audio-4B-Instruct、 MOSS-Audio-8B-Thinking 七个模型进行普通话、英语、粤语测试,其中Qwen3-ASR-1.7B的ASR效果最好,Fun-ASR-Nano-2512、MOSS-Audio-8B-Thinking也有不错的转写效果。Qwen3-ASR-1.7B、MOSS-Audio-4B-Instruct、 MOSS-Audio-8B-Thinking的官方说明中提及是需要GPU驱动,在纯CPU环境测试中,三者都需要不同程度的额外时间完成测试。
  2. 打通ASR->LLM->TTS的通话助手,其中ASR选取了Qwen3-ASR-1.7B、tencent等模型进行测试,由于是流式输出环境,Qwen3-ASR-1.7B的输出表现不及测试优秀,需要较长时间进行转写,并且出现一定程度的漏字情况,而其他开源本地模型的效果更为糟糕。
  3. TTS采用的是开源模型MOSS-TTS-Nano,转语音效果优秀,但转语音时间需要约一分钟,在实际情况中几乎不可接受。

问题与洞察:

  • GPU驱动的ASR引擎在CPU上也能跑,但在实际测试中,单个音频的平均转写时间达到十四分钟。实际使用场景需要在有GPU驱动情况下再次测试
  • 目前ASR->LLM->TTS的主要时间消耗在TTS回复转语音过程,该过程取决于LLM回答长度,因此需要大幅度的限制大模型回答长度,而限制回答长度对模型的回答质量带来很大程度影响。而即使是在限制回答长度后,对于约100字的中文内容,TTS仍需要约五十秒完成语音生成。直接导致用户说话后约一分钟后才能听到回复。

下周重点工作:

  • 尝试缩减TTS转语音时间,其中可能包括TTS模型预加载、流式生成语音并播放等途径
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇