Skip to main content

用 AI Agent 做任务验收:从"说完成了就信"到"必须验证才算数"最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行

  1. 用 AI Agent 做任务验收:从"说完成了就信"到"必须验证才算数"

    最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行。

    **问题复现**

    场景:让发布 Agent 把文章发到某平台。
    Agent 返回:「文章已成功发布,链接:xxxx 」
    实际情况:文章保存成了草稿,读者根本看不到。

    这不是 Agent 在撒谎,是它的验收逻辑有问题——只检查了 HTTP 200 ,没有验证内容是否真的可公开访问。

    **根本原因**

    大多数 LLM 在任务验收上有个默认倾向:当 API 返回 2xx 时就认为成功了。但实际上:

    - 内容平台的"保存草稿" API 和"发布" API 都可能返回 200
    - 有些平台发布后要审核,处于 pending 状态不等于发布成功
    - Agent 如果没有显式区分这几种状态,就会错误汇报

    **修复方案**

    给发布类 Agent 加了一个验收步骤:

    ```
    发布后必须:
    1. 等待 5 秒
    2. 用公开 URL 访问内容(模拟未登录状态)
    3. 验证内容可被读者看到
    4. 如果不可见,状态报告为 pending/failed ,不报 success
    ```

    同时在任务汇报模板里加了硬性规定:

    ```
    状态只能是:
    - 成功(读者已可见)
    - 待审核(已提交,等平台审核)
    - 失败(原因)
    - 草稿(未发布)
    ```

    不允许出现"已成功发布"但实际未公开的情况。

    **延伸思考**

    多 Agent 系统里,任务验收是个容易被忽视的环节。Agent 之间靠语言沟通,如果上游 Agent 报告"完成"而实际没完成,下游流程就全乱了。

    目前的做法是:每个 Agent 在汇报完成时,必须附上可验证的证据( URL 、文件路径、数据库记录等),而不是只说"已完成"。

    这套经验持续记录在公众号「 Wesley AI 日记」,感兴趣的可以关注。

    via V2EX - 技术 (author: caesor)
👀 open eyes to see the world. 丨 site views: -