本周工作总结:
1. ASR引擎批量转录与效果对比
将原本十分钟的长音频拆分为十二个片段,逐一使用多个ASR引擎进行批量转录测试,完成各引擎转写效果的横向对比。同步开展各ASR实时转写能力的专项测试,建立初步的效果评估基准。
2. 微信生态CLI工具调研与评估
完成开源微信CLI与企业微信官方开源CLI的深度调研,系统测试两者的功能覆盖、适用场景及能力边界,明确各自在企业级自动化场景中的可行性与限制条件。深入研究wecom-cli的实现原理,明确其基于服务端获取数据的架构设计。
3. ASR流式转写深度测试与最优方案确定
完成各ASR引擎流式转写效果的全面测试并录制视频记录,综合评估后确定腾讯云ASR为当前最优方案(转写准确率、延迟、稳定性表现最佳)。
4. WebSocket方案故障排查与TRTC替代方案落地
WebSocket实时推送方案暂未成功,已协调谢颜哥协助排查后台日志定位根因,目前等待反馈结果。同步启动替代方案验证,成功接入腾讯云TRTC(实时音视频通信)服务,实现两台设备间的实时通信与语音实时转录,确保项目进度不受阻。
问题与洞察:
-
ASR引擎的”准确率-成本-延迟”三角权衡:腾讯云ASR在流式场景表现最优,但需关注其计费模式与竞品差异。火山的ASR引擎整体情况也较好,但其不能识别当前语句结束并换行。其余产品均存在不同情况的质量/准确性问题。
-
微信CLI的官方限制风险:企业微信官方CLI与开源CLI均存在能力边界,且官方接口可能随时调整权限策略。目前社区显示,微信开源CLI存在一定的风险警告,需谨慎使用。
-
WebSocket方案的工程复杂度:当前阻塞点可能源于协议握手不匹配。
下周重点工作:
-
WebSocket方案根因定位与修复
跟进谢颜哥后台日志分析结果,明确WebSocket推送失败的具体原因(协议、鉴权、数据格式或网络层)。制定修复方案或正式放弃WebSocket路径,将资源集中于TRTC优化
-
TRTC方案工程化与性能优化
扩展TRTC测试规模,验证多设备并发、长时间运行的稳定性。测试TRTC与腾讯云ASR的集成延迟,优化端到端实时转写体验
-
电话系统接入方案设计
明确电话语音流的采集点(软电话SDK、硬件网关、运营商接口)
-
寻找开源企微等平台cli
寻找并测试企业微信、钉钉、飞书等平台的开源cli,目标是能直接读取本地数据库,并能稳定读取约一年的数据