公告

博客公告

欢迎来到我的博客，进站可以先阅读“博客介绍”！

2026.3.20周报

2026-3-25 14:10

|

实习

|

272

695 字

|

3 分钟

本周工作总结:

1. 智能体工作流系统搭建与架构迭代

完成以工作流形式创建智能体的全流程，包括所有节点的创建、修改与测试
解决智能体节点无法传入空参数的技术限制。
优化工作流参数结构：将所有大模型节点的多输出参数重构为单一字符串参数（值为原所有参数输出内容的整合），解决节点因输入参数为空而报错的问题
集成知识库能力：按照需求添加调取知识库获取相似案例的流程节点。
新增Markdown格式总结智能体：专门负责将工作流输出内容规范化为Markdown格式，提升最终交付质量

2. 桌面控制Agent产品深度调研（UI-Tars系列）

UI-Tars基础能力验证：完成UI-Tars部署测试，验证其通过豆包模型控制电脑桌面的核心能力，发现其无法在企业微信中发送消息等兼容性限制，同时深入调研其适配性，确认支持豆包Seed2.0-Pro模型

3. 桌面控制Agent产品深度调研（Open Interpreter）

完成Open Interpreter核心机制分析：其通过模型直接在终端运行代码实现桌面控制功能
明确功能边界：标准模式仅能调用终端运行代码，无法实现鼠标、键盘控制，此外，其在识别图片时会卡死，无法正确得到结果；OS模式虽支持完整桌面控制，但存在强模型绑定限制（仅支持Claude Sonnet 3.5）

问题与洞察:

桌面Agent领域的技术现实与预期存在落差：无论是UI-Tars还是Open Interpreter，均存在严重的模型绑定和应用兼容性问题。Open Interpreter的OS模式强绑定Claude Sonnet 3.5，尝试修改源码突破限制未能成功。
coze工作流存在限制：智能体节点无法传入空参数，因此无法实现选择性的为节点提供参数内容。同时，在豆包发布会出现智能体无法调用工作流问题，而在飞书、扣子商场均可正常解决。

下周重点工作:

调研self-operating-computer，其介绍中提到可使用与人类操作者相同的输入和输出，模型可以查看屏幕并决定一系列鼠标和键盘操作以实现目标。

暂无评论

发送评论编辑评论

Markdown

悄悄话

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!