本周工作总结:
1. 智能体工作流系统搭建与架构迭代
-
完成以工作流形式创建智能体的全流程,包括所有节点的创建、修改与测试
-
解决智能体节点无法传入空参数的技术限制。
-
优化工作流参数结构:将所有大模型节点的多输出参数重构为单一字符串参数(值为原所有参数输出内容的整合),解决节点因输入参数为空而报错的问题
-
集成知识库能力:按照需求添加调取知识库获取相似案例的流程节点。
-
新增Markdown格式总结智能体:专门负责将工作流输出内容规范化为Markdown格式,提升最终交付质量
2. 桌面控制Agent产品深度调研(UI-Tars系列)
-
UI-Tars基础能力验证:完成UI-Tars部署测试,验证其通过豆包模型控制电脑桌面的核心能力,发现其无法在企业微信中发送消息等兼容性限制,同时深入调研其适配性,确认支持豆包Seed2.0-Pro模型
3. 桌面控制Agent产品深度调研(Open Interpreter)
-
完成Open Interpreter核心机制分析:其通过模型直接在终端运行代码实现桌面控制功能
-
明确功能边界:标准模式仅能调用终端运行代码,无法实现鼠标、键盘控制,此外,其在识别图片时会卡死,无法正确得到结果;OS模式虽支持完整桌面控制,但存在强模型绑定限制(仅支持Claude Sonnet 3.5)
问题与洞察:
-
桌面Agent领域的技术现实与预期存在落差:无论是UI-Tars还是Open Interpreter,均存在严重的模型绑定和应用兼容性问题。Open Interpreter的OS模式强绑定Claude Sonnet 3.5,尝试修改源码突破限制未能成功。
-
coze工作流存在限制:智能体节点无法传入空参数,因此无法实现选择性的为节点提供参数内容。同时,在豆包发布会出现智能体无法调用工作流问题,而在飞书、扣子商场均可正常解决。
下周重点工作:
调研self-operating-computer,其介绍中提到可使用与人类操作者相同的输入和输出,模型可以查看屏幕并决定一系列鼠标和键盘操作以实现目标。