本周工作总结:
-
Dify工作流架构重构与简化:针对公司背景调研报告第一部分,重新设计工作流架构,将原本细粒度节点合并为”每一章一个节点”的粗粒度模式。简化后的架构降低了调试复杂度与维护成本,同时保持了核心逻辑的完整性。
-
报告生成效率与质量平衡优化:针对原本约1.5万字的输出结果进行压缩优化,通过精炼提示词、去除冗余表述、优化信息密度等手段,在保证内容质量不下滑的前提下,将报告第一部分压缩至1万字左右。最终实现整体执行时间节省约40%,显著提升了交付效率与Token经济性。
-
石头科技数据采集与交付:爬取石头科技2025年11月至2026年3月的录音与聊天记录,数据保存至豪哥移动磁盘,目前已爬取2025年11月呼入呼出录音数据,耗时一天半。
-
ASR引擎多平台账号注册与基础测试:完成阿里云、腾讯云、百度云、科大讯飞、火山引擎五大ASR平台的账号注册与权限开通。利用Trae辅助编写测试程序,完成各平台基础API调用验证,建立初步的测试框架。建立统一的测试输出格式,将各引擎转写结果生成Markdown文件便于横向对比。
-
流式转写能力深度测试:完成阿里云、腾讯云、科大讯飞、火山引擎四家平台的流式转写功能测试,验证实时音频流的接入稳定性、延迟表现与转写准确率,为实时场景选型提供数据支撑。
问题与洞察:
-
节点合并后效率提升超预期,反映出过度拆分可能导致上下文割裂与重复调用。提示词工程的重要性可能高于节点数量,”大而精”的提示词在部分场景优于”小而多”的节点串联。
-
ASR引擎生态的碎片化现状:不同平台在音频限制、接口协议、计费模式、流式支持上差异显著,无统一标准。长音频可能须拆分处理,但切分点的语义连贯性(如句中截断)可能影响转写质量,需设计智能切分策略(基于静音检测或语义边界)。
下周重点工作:
-
继续爬取石头科技的聊天记录、呼入呼出记录等数据,预计需要5-8天
-
针对更复杂情况测试asr转写能力,如多噪音、口音、多停顿等