本周工作总结:
-
打通ASR到LLM到TTS的完整电话路径,并以预加载ASR、TTS本地大模型方式减少等待时间,最终将原本约一分钟的等待时间缩短近三分之一
-
打通ASR到LLM到TTS的流式输出,整个过程从说话结束到听到回答几乎无延迟,但目前TTS流式输出不服预期,听到的语音有大声噪音,目前未得到有效解决,该项目暂时搁置
-
利用GPT构想dify介绍、使用文稿,并根据文稿录制dify的上手视频,目前分为三个视频,分别为认识dify,包括应用与节点;上手dify,明白变量使用与工作流节点设置;搭建完整工作流,实现目标效果
问题与洞察:
-
dify目前有许多节点目前仍缺乏使用经验,如知识库创建、知识检索等部分,仍需一定使用了解相关过程,随后录制相关视频
-
对于不同的开源或闭源模型而言,用更少的参数训练得到的大模型,其效果越好性价比越高,是我们需要关注的对象,因此寻找性价比更高的模型代替原有模型是改进项目的一大关键
-
部分ASR模型在音频上有有效的转写效果,但其不一定支持或适合流式输入的电话场景,因此在正式使用前,有必要针对实际落地场景进行测试
下周重点工作:
-
针对“修改->调试->查看结果”流程进行讲解,并录制对应视频。此外,补充知识检索节点、知识库创建、api调用、工具等内容的使用教学视频,共约2-3个视频